大数据修炼之Hive

2024-09-02 12:32

文章标签 数据 hive 修炼

本文主要是介绍大数据修炼之Hive，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

Hive特点
体系结构
常用命令
- DDL
- DML
数据模型

官网

Hive特点

（1）不同的存储类型，例如纯文本文件、HBase中的文件。
（2）将元数据保存在关系数据库中，可大大减少在查询过程中执行语义检查的时间。
（3）可以直接使用存储在Hadoop文件系统中的数据。
（4）内置大量函数来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF函数来完成内置函数无法实现的操作。
（5）类SQL的查询方式，将SQL查询转换为MapReduce的Job在Hadoop集群上执行。

体系结构

在这里插入图片描述

常用命令

1.创建数据库
hive>create database myhive;
hive>create database if not exists myhive;
2.查询数据库和表
hive>show databases;
hive>show tables;
使用正则表达式：
hive>show databases like ‘h.*’;
3.修改数据库默认位置
hive>create database myhive
location ‘my/myhive.db’; //要指定数据库名
1)为数据库增加描述信息
hive>create database myhive
comment ‘this is my’;
hive> desc database myhive; //显示详细信息
2)增加一些和其相关的键-值对属性信息
hive>create database myhive
with dbproperties(‘name’=‘lu’,‘data’=‘2012-01-02’);
查看：hive>desc database extended myhive;
hive>use default；
3)删除数据库
hive>drop database if exists myhive; //避免数据库不存在而抛出警告信息
如果数据库下有表，就不允许删除；要是删除的话，则：
hive>drop database if exists myhive cascade;
restrict(默认)不允许删除；
4.修改数据库
为数据库的dbproperties设置键值对属性值，来描述数据库属性信息，
数据库其他元数据都是不可更改的，包括数据库名和数据库所在目录位置
hive>alter database myhive set dbproperties(edited-by’=‘Joe’);
hive支持select和insert 不支持update，delete

DDL

创建
在这里插入图片描述

CREATE TABLE pokes (foo INT, bar STRING);
CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);    //creates a table called invites with two columns and a partition column called ds. The partition column is a virtual column. It is not part of the data itself but is derived from the partition that a particular dataset is loaded into.
//By default, tables are assumed to be of text input format and the delimiters are assumed to be ^A(ctrl-a).

浏览

SHOW TABLES;
SHOW TABLES '.*s';

修改与删表

  hive> ALTER TABLE events RENAME TO 3koobecaf;hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');hive> ALTER TABLE invites REPLACE COLUMNS (foo INT, bar STRING, baz INT COMMENT 'baz replaces new_col2');hive> ALTER TABLE invites REPLACE COLUMNS (foo INT COMMENT 'only keep the first column');hive> DROP TABLE pokes;

DML

 hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;

数据模型

Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。
db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
table：在hdfs中表现所属db目录下一个文件夹
external table：外部表, 与table类似，不过其数据存放位置可以在任意指定路径
普通表: 删除表后, hdfs上的文件都删了
External外部表删除后, hdfs上的文件没有删除, 只是把文件删除了
partition：在hdfs中表现为table目录下的子目录
bucket：桶, 在hdfs中表现为同一个表目录下根据hash散列之后的多个文件, 会根据不同的文件把数据放到不同的文件中

元数据默认存放在derby中（jar），不支持多个客户端同时访问。

这篇关于大数据修炼之Hive的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！