大数据-数仓-数仓工具：Hive（离线数据分析框架）【替代MapReduce编程；插入、查询、分析HDFS中的大规模数据；机制是将HiveSQL转化成MR程序；不支持修改、删除操作；执行延迟较高】

本文主要是介绍大数据-数仓-数仓工具：Hive（离线数据分析框架）【替代MapReduce编程；插入、查询、分析HDFS中的大规模数据；机制是将HiveSQL转化成MR程序；不支持修改、删除操作；执行延迟较高】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述
Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。

Hive十分适合对数据仓库进行统计分析。

$\text{Hive数据仓库} \begin{cases} \text{元数据(字段名,字段类型...等表结构信息)：保存在mysql中}\\[2ex] \text{数据(记录值)：存储在HDFS中}\\[2ex] \text{“元数据”与“数据”通过表进行映射} \end{cases}$
在这里插入图片描述
Hive的本质

在Hive中创建的表，库都在hdfs上有相应的路径！
表中的数据，是文件的形式在表对应的目录中存放！
在建表和建库后，会在Mysql中生成对应的shema信息！
- tbls: 存放表的元数据
- dbs: 库的元数据
- column_v2: 列的元数据

Hive的特点：

只支持读(select)、写(insert)操作；
不支持修改(update)、删除(delete)某条数据

生产实践中的流程：

采集数据
将数据按照自定义的某种格式保存在HDFS中
根据保存在HDFS中采集数据的格式创建表结构
使用HiveSql语句进行分析；

一、Hive安装及基本应用

1、Hive安装

①保证安装Hive的Linux服务器的环境变量中有JAVA_HOME
②基于HADOOP工作，保证安装Hive的Linux服务器的环境变量中有HADOOP_HOME
③在安装Hive的Linux服务器的环境变量中配置HIVE_HOME，默认hive在启动时，会读取HIVE_HOME/conf中的配置文件

[wyr@hadoop102 ~]$ echo $JAVA_HOME
/opt/module/jdk1.8.0_121
[wyr@hadoop102 ~]$ echo $HADOOP_HOME
/opt/module/hadoop-2.7.2
[wyr@hadoop102 ~]$

把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/soft目录下，解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面

[wyr@hadoop102 soft]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/
[wyr@hadoop102 module]$ ll
total 16
drwxrwxr-x.  8 wyr wyr 4096 Jan 30 15:44 apache-hive-1.2.1-bin
drwxr-xr-x. 11 wyr wyr 4096 Jan 30 15:30 hadoop-2.7.2
drwxr-xr-x.  8 wyr wyr 4096 Dec 13  2016 jdk1.8.0_121
drwxr-xr-x. 11 wyr wyr 4096 Jan 29 22:01 zookeeper-3.4.10
[wyr@hadoop102 module]$

修改apache-hive-1.2.1-bin.tar.gz的名称为hive

[wyr@hadoop102 module]$ mv apache-hive-1.2.1-bin/ hive
[wyr@hadoop102 module]$ ll
total 16
drwxr-xr-x. 11 wyr wyr 4096 Jan 30 15:30 hadoop-2.7.2
drwxrwxr-x.  8 wyr wyr 4096 Jan 30 15:44 hive
drwxr-xr-x.  8 wyr wyr 4096 Dec 13  2016 jdk1.8.0_121
drwxr-xr-x. 11 wyr wyr 4096 Jan 29 22:01 zookeeper-3.4.10
[wyr@hadoop102 module]$

将/opt/module/hive/bin目录添加到环境变量，在环境变量中提供HIVE_HOME

[wyr@hadoop102 conf]$ vim /etc/profileJAVA_HOME=/opt/module/jdk1.8.0_121
HADOOP_HOME=/opt/module/hadoop-2.7.2
HIVE_HOME=/opt/module/hive
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin
export JAVA_HOME HADOOP_HOME HIVE_HOME PATH[wyr@hadoop102 conf]$ source /etc/profile

2、Hive启动及基本操作

2.1 Hive启动与退出

[wyr@hadoop102 ~]$ ll
total 60
drwxrwxr-x. 2 wyr wyr  4096 Jan 29 12:55 bin
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Desktop
drwxr-xr-x. 2 wyr wyr  4096 Jan 29 23:09 Documents
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Downloads
-rw-rw-r--. 1 wyr wyr    12 Jan 29 23:22 hello
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Music
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Pictures
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Public
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Templates
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Videos
-rw-rw-r--. 1 wyr wyr 19392 Jan 30 15:15 zookeeper.out
[wyr@hadoop102 ~]$ hiveLogging initialized using configuration in jar:file:/opt/module/hive/lib/hive-common-1.2.1.jar!/hive-log4j.properties
hive> quit;
[wyr@hadoop102 ~]$ ll
total 88
drwxrwxr-x. 2 wyr wyr  4096 Jan 29 12:55 bin
-rw-rw-r--. 1 wyr wyr 21031 Jan 30 17:02 derby.log
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Desktop
drwxr-xr-x. 2 wyr wyr  4096 Jan 29 23:09 Documents
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Downloads
-rw-rw-r--. 1 wyr wyr    12 Jan 29 23:22 hello
drwxrwxr-x. 5 wyr wyr  4096 Jan 30 17:02 metastore_db
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Music
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Pictures
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Public
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Templates
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Videos
-rw-rw-r--. 1 wyr wyr 19392 Jan 30 15:15 zookeeper.out
[wyr@hadoop102 ~]$

Hive在哪个目录启动就会在该目录下创建metastore_db文件夹、derby.log日志文件
如果下载在别的目录启动Hive，只会读取当前目录的Hive数据，不会读取别的目录下的Hive数据

2.1 Hive基本操作

查看数据库

hive> show databases;
OK
default
Time taken: 0.516 seconds, Fetched: 1 row(s)
hive>

打开默认数据库

hive> use default;
OK
Time taken: 0.01 seconds
hive>

创建一张表

hive> create table person(name varchar(20), age int);
OK
Time taken: 0.261 seconds
hive>

显示default数据库中的表

hive> show tables;
OK
person
Time taken: 0.008 seconds, Fetched: 1 row(s)
hive> 
<

这篇关于大数据-数仓-数仓工具：Hive（离线数据分析框架）【替代MapReduce编程；插入、查询、分析HDFS中的大规模数据；机制是将HiveSQL转化成MR程序；不支持修改、删除操作；执行延迟较高】的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

大数据-数仓-数仓工具：Hive（离线数据分析框架）【替代MapReduce编程；插入、查询、分析HDFS中的大规模数据；机制是将HiveSQL转化成MR程序；不支持修改、删除操作；执行延迟较高】

一、Hive安装及基本应用

1、Hive安装

2、Hive启动及基本操作

2.1 Hive启动与退出

2.1 Hive基本操作

相关文章

SpringBoot多环境配置数据读取方式

解决pandas无法读取csv文件数据的问题

解密SQL查询语句执行的过程

Linux系统中查询JDK安装目录的几种常用方法

Python Web框架Flask、Streamlit、FastAPI示例详解

C#监听txt文档获取新数据方式

java如何实现高并发场景下三级缓存的数据一致性

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

C#解析JSON数据全攻略指南

Olingo分析和实践之OData框架核心组件初始化(关键步骤)