大数据-数仓-数仓工具:Hive(离线数据分析框架)【替代MapReduce编程;插入、查询、分析HDFS中的大规模数据;机制是将HiveSQL转化成MR程序;不支持修改、删除操作;执行延迟较高】

本文主要是介绍大数据-数仓-数仓工具:Hive(离线数据分析框架)【替代MapReduce编程;插入、查询、分析HDFS中的大规模数据;机制是将HiveSQL转化成MR程序;不支持修改、删除操作;执行延迟较高】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。

Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。

Hive十分适合对数据仓库进行统计分析。

Hive数据仓库 { 元数据(字段名,字段类型...等表结构信息):保存在mysql中 数据(记录值):存储在HDFS中 “元数据”与“数据”通过表进行映射 \text{Hive数据仓库} \begin{cases} \text{元数据(字段名,字段类型...等表结构信息):保存在mysql中}\\[2ex] \text{数据(记录值):存储在HDFS中}\\[2ex] \text{“元数据”与“数据”通过表进行映射} \end{cases} Hive数据仓库 元数据(字段名,字段类型...等表结构信息):保存在mysql数据(记录值):存储在HDFS元数据数据通过表进行映射
在这里插入图片描述
Hive的本质

  • 在Hive中创建的表,库都在hdfs上有相应的路径!
  • 表中的数据,是文件的形式在表对应的目录中存放!
  • 在建表和建库后,会在Mysql中生成对应的shema信息!
    • tbls: 存放表的元数据
    • dbs: 库的元数据
    • column_v2: 列的元数据

Hive的特点:

  • 只支持读(select)、写(insert)操作;
  • 不支持修改(update)、删除(delete)某条数据

生产实践中的流程

  1. 采集数据
  2. 将数据按照自定义的某种格式保存在HDFS中
  3. 根据保存在HDFS中采集数据的格式创建表结构
  4. 使用HiveSql语句进行分析;





一、Hive安装及基本应用

1、Hive安装

①保证安装Hive的Linux服务器的环境变量中有JAVA_HOME
②基于HADOOP工作,保证安装Hive的Linux服务器的环境变量中有HADOOP_HOME
③在安装Hive的Linux服务器的环境变量中配置HIVE_HOME,默认hive在启动时,会读取HIVE_HOME/conf中的配置文件

[wyr@hadoop102 ~]$ echo $JAVA_HOME
/opt/module/jdk1.8.0_121
[wyr@hadoop102 ~]$ echo $HADOOP_HOME
/opt/module/hadoop-2.7.2
[wyr@hadoop102 ~]$ 

把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/soft目录下,解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面

[wyr@hadoop102 soft]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/
[wyr@hadoop102 module]$ ll
total 16
drwxrwxr-x.  8 wyr wyr 4096 Jan 30 15:44 apache-hive-1.2.1-bin
drwxr-xr-x. 11 wyr wyr 4096 Jan 30 15:30 hadoop-2.7.2
drwxr-xr-x.  8 wyr wyr 4096 Dec 13  2016 jdk1.8.0_121
drwxr-xr-x. 11 wyr wyr 4096 Jan 29 22:01 zookeeper-3.4.10
[wyr@hadoop102 module]$ 

修改apache-hive-1.2.1-bin.tar.gz的名称为hive

[wyr@hadoop102 module]$ mv apache-hive-1.2.1-bin/ hive
[wyr@hadoop102 module]$ ll
total 16
drwxr-xr-x. 11 wyr wyr 4096 Jan 30 15:30 hadoop-2.7.2
drwxrwxr-x.  8 wyr wyr 4096 Jan 30 15:44 hive
drwxr-xr-x.  8 wyr wyr 4096 Dec 13  2016 jdk1.8.0_121
drwxr-xr-x. 11 wyr wyr 4096 Jan 29 22:01 zookeeper-3.4.10
[wyr@hadoop102 module]$ 

将/opt/module/hive/bin目录添加到环境变量,在环境变量中提供HIVE_HOME

[wyr@hadoop102 conf]$ vim /etc/profileJAVA_HOME=/opt/module/jdk1.8.0_121
HADOOP_HOME=/opt/module/hadoop-2.7.2
HIVE_HOME=/opt/module/hive
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin
export JAVA_HOME HADOOP_HOME HIVE_HOME PATH[wyr@hadoop102 conf]$ source /etc/profile

2、Hive启动及基本操作

2.1 Hive启动与退出

[wyr@hadoop102 ~]$ ll
total 60
drwxrwxr-x. 2 wyr wyr  4096 Jan 29 12:55 bin
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Desktop
drwxr-xr-x. 2 wyr wyr  4096 Jan 29 23:09 Documents
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Downloads
-rw-rw-r--. 1 wyr wyr    12 Jan 29 23:22 hello
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Music
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Pictures
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Public
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Templates
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Videos
-rw-rw-r--. 1 wyr wyr 19392 Jan 30 15:15 zookeeper.out
[wyr@hadoop102 ~]$ hiveLogging initialized using configuration in jar:file:/opt/module/hive/lib/hive-common-1.2.1.jar!/hive-log4j.properties
hive> quit;
[wyr@hadoop102 ~]$ ll
total 88
drwxrwxr-x. 2 wyr wyr  4096 Jan 29 12:55 bin
-rw-rw-r--. 1 wyr wyr 21031 Jan 30 17:02 derby.log
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Desktop
drwxr-xr-x. 2 wyr wyr  4096 Jan 29 23:09 Documents
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Downloads
-rw-rw-r--. 1 wyr wyr    12 Jan 29 23:22 hello
drwxrwxr-x. 5 wyr wyr  4096 Jan 30 17:02 metastore_db
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Music
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Pictures
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Public
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Templates
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Videos
-rw-rw-r--. 1 wyr wyr 19392 Jan 30 15:15 zookeeper.out
[wyr@hadoop102 ~]$ 
  • Hive在哪个目录启动就会在该目录下创建metastore_db文件夹、derby.log日志文件
  • 如果下载在别的目录启动Hive,只会读取当前目录的Hive数据,不会读取别的目录下的Hive数据

2.1 Hive基本操作

查看数据库

hive> show databases;
OK
default
Time taken: 0.516 seconds, Fetched: 1 row(s)
hive> 

打开默认数据库

hive> use default;
OK
Time taken: 0.01 seconds
hive> 

创建一张表

hive> create table person(name varchar(20), age int);
OK
Time taken: 0.261 seconds
hive> 

显示default数据库中的表

hive> show tables;
OK
person
Time taken: 0.008 seconds, Fetched: 1 row(s)
hive> 
<

这篇关于大数据-数仓-数仓工具:Hive(离线数据分析框架)【替代MapReduce编程;插入、查询、分析HDFS中的大规模数据;机制是将HiveSQL转化成MR程序;不支持修改、删除操作;执行延迟较高】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128907

相关文章

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点(如日志、事务)与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么?二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

MyBatis延迟加载与多级缓存全解析

《MyBatis延迟加载与多级缓存全解析》文章介绍MyBatis的延迟加载与多级缓存机制,延迟加载按需加载关联数据提升性能,一级缓存会话级默认开启,二级缓存工厂级支持跨会话共享,增删改操作会清空对应缓... 目录MyBATis延迟加载策略一对多示例一对多示例MyBatis框架的缓存一级缓存二级缓存MyBat

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注

java程序远程debug原理与配置全过程

《java程序远程debug原理与配置全过程》文章介绍了Java远程调试的JPDA体系,包含JVMTI监控JVM、JDWP传输调试命令、JDI提供调试接口,通过-Xdebug、-Xrunjdwp参数配... 目录背景组成模块间联系IBM对三个模块的详细介绍编程使用总结背景日常工作中,每个程序员都会遇到bu

Linux命令rm如何删除名字以“-”开头的文件

《Linux命令rm如何删除名字以“-”开头的文件》Linux中,命令的解析机制非常灵活,它会根据命令的开头字符来判断是否需要执行命令选项,对于文件操作命令(如rm、ls等),系统默认会将命令开头的某... 目录先搞懂:为啥“-”开头的文件删不掉?两种超简单的删除方法(小白也能学会)方法1:用“--”分隔命

MyBatis Plus大数据量查询慢原因分析及解决

《MyBatisPlus大数据量查询慢原因分析及解决》大数据量查询慢常因全表扫描、分页不当、索引缺失、内存占用高及ORM开销,优化措施包括分页查询、流式读取、SQL优化、批处理、多数据源、结果集二次... 目录大数据量查询慢的常见原因优化方案高级方案配置调优监控与诊断总结大数据量查询慢的常见原因MyBAT

C#自动化实现检测并删除PDF文件中的空白页面

《C#自动化实现检测并删除PDF文件中的空白页面》PDF文档在日常工作和生活中扮演着重要的角色,本文将深入探讨如何使用C#编程语言,结合强大的PDF处理库,自动化地检测并删除PDF文件中的空白页面,感... 目录理解PDF空白页的定义与挑战引入Spire.PDF for .NET库核心实现:检测并删除空白页

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

《uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)》在uni-app开发中,文件上传和图片处理是很常见的需求,但也经常会遇到各种问题,下面:本文主要介绍uni-app小程序项目中实... 目录方式一:使用<canvas>实现图片压缩(推荐,兼容性好)示例代码(小程序平台):方式二:使用uni

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程