大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据)

本文主要是介绍大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大数据技术之_08_Hive学习_02

    • 第4章 DDL数据定义
      • 4.1 创建数据库
      • 4.2 查询数据库
        • 4.2.1 显示数据库
        • 4.2.2 查看数据库详情
        • 4.3.3 切换当前数据库
      • 4.3 修改数据库
      • 4.4 删除数据库
      • 4.5 创建表
        • 4.5.1 管理表(内部表)
        • 4.5.2 外部表
        • 4.5.3 管理表与外部表的互相转换
      • 4.6 分区表
        • 4.6.1 分区表基本操作
        • 4.6.2 分区表注意事项
      • 4.7 修改表
        • 4.7.1 重命名表
        • 4.7.2 增加、修改和删除表分区
        • 4.7.3 增加/修改/替换列信息
      • 4.8 删除表
    • 第5章 DML数据操作
      • 5.1 数据导入
        • 5.1.1 向表中装载数据(load)
        • 5.1.2 通过查询语句向表中插入数据(insert)
        • 5.1.3 查询语句中创建表并加载数据(as select)
        • 5.1.4 创建表时通过location指定加载数据路径
        • 5.1.5 import数据到指定Hive表中
      • 5.2 数据导出
        • 5.2.1 insert导出
        • 5.2.2 Hadoop命令导出到本地
        • 5.2.3 Hive Shell 命令导出
        • 5.2.4 Export导出到HDFS上
        • 5.2.5 Sqoop导出
      • 5.3 清除表中数据(truncate)

第4章 DDL数据定义

4.1 创建数据库

1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。

hive (default)> create database db_hive;

2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)

hive (default)> create database db_hive;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Database db_hive already exists
hive (default)> create database if not exists db_hive;

3)创建一个数据库,并指定数据库在HDFS上存放的位置

hive (default)> create database db_hive2 location '/db_hive2.db';
hive (default)> create table db_hive2.test(id int);

如下图所示:

注意:创建一个数据库,并指定数据库在HDFS上存放的位置,如果不指定数据库名称的话,默认创建的数据库的位置同default位置一样。

4.2 查询数据库

4.2.1 显示数据库

1、显示数据库

hive (default)> show databases;

2、过滤显示查询的数据库

hive (default)> show databases like 'db_hive*';OK
database_name
db_hive
db_hive2
4.2.2 查看数据库详情

1、显示数据库信息

hive (default)> desc database db_hive;
OK
db_name	comment	location	owner_name	owner_type	parameters
db_hive		hdfs://hadoop102:9000/user/hive/warehouse/db_hive.db	atguigu	USER	
Time taken: 0.019 seconds, Fetched: 1 row(s)

2、显示数据库详细信息,extended(扩展)

hive (default)> desc database extended db_hive;
OK
db_name	comment	location	owner_name	owner_type	parameters
db_hive		hdfs://hadoop102:9000/user/hive/warehouse/db_hive.db	atguigu	USER	
Time taken: 0.016 seconds, Fetched: 1 row(s)
4.3.3 切换当前数据库
hive (default)> use db_hive;

4.3 修改数据库

  用户可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键-值对属性值,来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的,包括数据库名和数据库所在的目录位置

hive (default)> alter database db_hive set dbproperties('createtime'='20191111');

在hive中查看修改结果

hive (default)> desc database extended db_hive;
OK
db_name	comment	location	owner_name	owner_type	parameters
db_hive		hdfs://hadoop102:9000/user/hive/warehouse/db_hive.db	atguigu	USER	{createtime=20191111}
Time taken: 0.014 seconds, Fetched: 1 row(s)

4.4 删除数据库

1、删除空数据库

hive (default)> drop database db_hive;

2、如果删除的数据库不存在,最好采用 if exists 判断数据库是否存在

hive (default)> drop database db_hive;
FAILED: SemanticException [Error 10072]: Database does not exist: db_hive
hive (default)> drop database if exists db_hive;

3、如果数据库不为空,可以采用 cascade 命令,强制删除(cascade级联)

hive (default)> drop database if exists db_hive2;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database db_hive2 is not empty. One or more tables exist.)
hive (default)> drop database if exists db_hive2 cascade;

4.5 创建表

1、建表语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]

2、字段解释说明
(1)CREATE TABLE:表示创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXISTS 选项来忽略这个异常。
(2)EXTERNAL:该关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
(3)COMMENT:为表和列添加注释。
(4)PARTITIONED BY:表示创建分区表。(为了应对数据量大的情形,分区分的是文件夹,与MapReduce中的分区不一样)
(5)CLUSTERED BY:表示创建分桶表。(为了应对数据量大的情形,分桶分的是文件,与MapReduce中的分区一样)
(6)SORTED BY:不常用。
(7)ROW FORMAT

ROW FORMAT DELIMITED [FIELDS TERMINATED BY char] 
[COLLECTION ITEMS TERMINATED BY char] 
[MAP KEYS TERMINATED BY char] 
[LINES TERMINATED BY char] 
| SERDE serde_name 
[WITH SERDEPROPERTIES (property_name=property_value

这篇关于大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1100808

相关文章

MySQL数据库双机热备的配置方法详解

《MySQL数据库双机热备的配置方法详解》在企业级应用中,数据库的高可用性和数据的安全性是至关重要的,MySQL作为最流行的开源关系型数据库管理系统之一,提供了多种方式来实现高可用性,其中双机热备(M... 目录1. 环境准备1.1 安装mysql1.2 配置MySQL1.2.1 主服务器配置1.2.2 从

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

k8s按需创建PV和使用PVC详解

《k8s按需创建PV和使用PVC详解》Kubernetes中,PV和PVC用于管理持久存储,StorageClass实现动态PV分配,PVC声明存储需求并绑定PV,通过kubectl验证状态,注意回收... 目录1.按需创建 PV(使用 StorageClass)创建 StorageClass2.创建 PV

Linux创建服务使用systemctl管理详解

《Linux创建服务使用systemctl管理详解》文章指导在Linux中创建systemd服务,设置文件权限为所有者读写、其他只读,重新加载配置,启动服务并检查状态,确保服务正常运行,关键步骤包括权... 目录创建服务 /usr/lib/systemd/system/设置服务文件权限:所有者读写js,其他

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

idea+spring boot创建项目的搭建全过程

《idea+springboot创建项目的搭建全过程》SpringBoot是Spring社区发布的一个开源项目,旨在帮助开发者快速并且更简单的构建项目,:本文主要介绍idea+springb... 目录一.idea四种搭建方式1.Javaidea命名规范2JavaWebTomcat的安装一.明确tomcat

使用Java填充Word模板的操作指南

《使用Java填充Word模板的操作指南》本文介绍了Java填充Word模板的实现方法,包括文本、列表和复选框的填充,首先通过Word域功能设置模板变量,然后使用poi-tl、aspose-words... 目录前言一、设置word模板普通字段列表字段复选框二、代码1. 引入POM2. 模板放入项目3.代码

使用EasyPoi快速导出Word文档功能的实现步骤

《使用EasyPoi快速导出Word文档功能的实现步骤》EasyPoi是一个基于ApachePOI的开源Java工具库,旨在简化Excel和Word文档的操作,本文将详细介绍如何使用EasyPoi快速... 目录一、准备工作1、引入依赖二、准备好一个word模版文件三、编写导出方法的工具类四、在Export

Linux命令rm如何删除名字以“-”开头的文件

《Linux命令rm如何删除名字以“-”开头的文件》Linux中,命令的解析机制非常灵活,它会根据命令的开头字符来判断是否需要执行命令选项,对于文件操作命令(如rm、ls等),系统默认会将命令开头的某... 目录先搞懂:为啥“-”开头的文件删不掉?两种超简单的删除方法(小白也能学会)方法1:用“--”分隔命