Python大数据之Hadoop学习——day06_hive学习02

2024-08-31 16:04

本文主要是介绍Python大数据之Hadoop学习——day06_hive学习02,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.hive内外表操作

1. 建表语法

create [external] table [if not exists] 表名(字段名 字段类型 ,字段名 字段类型,...)

[partitioned by (分区字段名 分区字段类型)]        # 分区表固定格式

[clustered by (分桶字段名) into 桶个数 buckets]        # 分桶表固定格式

[sorted by (排序字段名 asc|desc)]

[row format delimited fields terminated by '字段分隔符' ]        # 自定义字段分隔固定格式

[stored as textfile]        # 默认即可

[location 'hdfs://域名:8020/user/hive/warehouse/库名.db/表名'] # 默认即可

; # 注意: 最后一定加分号结尾

2. 数据类型

基本数据类型:

整数        int

小数        float double

字符串        string varchar

时间        date timestamp

3. 表分类

Hive中可以创建的表有好几种类型,分别是:

内部表(管理表或者托管表)

外部表(非管理表或者非托管表)

二.内部表基本操作

1. 知识点

创建内部表:create table [if not exists] 内部表名(字段名 字段类型,字段名 字段类型...)

[row format delimited fields terminated by '字段分隔符'];

复制内部表:方式1:like方式复制表结构        方式2:as方式复制表结构和数据

删除内部表:drop table 内部表名;

        注意:删除内部表效果是mysql中表的相关元数据被删除,同时存储在hdfs中业务数据本身也被删除

查看表格式话信息:desc formatted 表名;

-- 内部表类型:MANAGED_TABLE

注意:还可以使用truncate清空内部表数据        格式:truncate table 内部表名

三. 外部表基本操作[练习]

1. 知识点

创建外部表:create external table [if not exists] 外部表名(字段名 字段类型,字段名 字段类型,...)[row format delimited fields terminated by '字段分隔符'];

 

复制表:方式1:like方式复制表结构

注意:as 方式不可以使用

 

删除外部表:drop table 外部表名

注意:删除外部表效果是mysql中元数据被删除,但是存储在hdfs的业务数据本身被保存

 

查看表格式化信息:desc formatted 表名;

-- 外部表类型:EXTERNAL_TABLE

 

注意:外部表不能使用truncate清空数据本身

四 .查看/修改表

1. 知识点

查看所有表:show tables;

查看建表语句:show create table 表名;

查看表信息:desc 表名;

查看表结构信息:desc 表名;

查看表格式化信息:desc formatted 表名;        注意:formatted能够展示详细信息

修改表名:alter table 旧表名rename to 新表名

字段添加:alter table 表名 add columns (字段名 字段类型);

字段的替换:alter table 表名 replace columns (字段名 字段类型,...)

字段名和字段类型同时修改:alter table 表名 change 旧字段名 新字段名 新字段类型;

注意:字符串类型不能直接改数值类型

 

修改表路径:alter table 表名 set location ‘hdfs中存储路径’;

修改表属性:alter table 表名 set tblproperties('属性名'=‘属性值’)

五.默认分隔符

1.知识点:

创建表的时候,如果不指定分隔符,以后表只能识别默认的分隔符

一般为:\0001,SOH,^A,□

六.快速映射表

1. 知识点:

创建表的时候指定分隔符:create [external] table 表名(字段名 字段类型) row format delimited fields terminated by 符号;

 

加载数据:load data [local] inpath '结构话数据文件' into table 表名;

七.数据导入和导出

文件数据加载导入
1.直接上传文件

window页面上传

linux本地put上传

hdfs dfs -put 文件 路径

2.load加载文件:

从hdfs路径把文件移动到表对应存储路径中:

load data inpath 'HDFS文件路径' [overwrite] into table 表名;

 

从linux本地把文件上传到表对应存储路径中:

load data local inpath 'Linux文件路径' [overwrite] into table 表名;

3.insert插入数据

从其他表查询数据'追加'插入到当前表中:insert into [table] 表名 select 语句;

从其他表查询数据'覆盖'插入到当前表中:insert overwrite table 表名 select 语句;

文件数据导出
1.直接下载文件

web页面下载

get命令下载文件

需求: 已知search_log.txt文件在HFDS的/user/hive/warehouse/hive02.db/search_log路径下,要下载到linux系统

[root@node1 binzi]# hdfs dfs -get /user/hive/warehouse/hive02.db/search_log/search_log.txt /binzi
2. insert导出数据

查询数据导出到hdfs其他路径:insert overwrite directory 'hdfs存储该数据路径' select语句;

 

查询数据导出到linux本地中:insert overwrite local directory 'linux存储该数据路径' select语句;

 

注意:  overwrite默认是覆盖重写,所以在指定存储该数据路径的时候尽量指定一个空的目录

注意: 导出数据的时候不指定分隔符采用默认分隔符SOH,0001,?...

 

导出数据指定分隔符添加:row format delimite fields terminated by ‘分隔符’

3.hive_shell命令

hive命令执行sql语句:  hive -e "sql语句" > 存储该结果数据的文件路径

hive命令执行sql脚本:  hive -f sql脚本文件 > 存储该结果数据的文件路径

hql语句导出

# 以下命令都是在linux的shell命令行执行
# 3.1使用hive -e sql语句方式导出数据
[root@node1 ~]# hive -e 'select * from hive02.search_log;' > /home/hs1.txt
[root@node1 ~]# cat hs1.txt

hql语句

# 3.2使用hive -f 脚本文件方式导出数据
[root@node1 ~]# echo 'select * from hive02.search_log;' > /home/export.sql
[root@node1 ~]# hive -f export.sql > /home/hs2.txt
[root@node1 ~]# cat hs2.txt

这篇关于Python大数据之Hadoop学习——day06_hive学习02的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1124355

相关文章

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Python实现字典转字符串的五种方法

《Python实现字典转字符串的五种方法》本文介绍了在Python中如何将字典数据结构转换为字符串格式的多种方法,首先可以通过内置的str()函数进行简单转换;其次利用ison.dumps()函数能够... 目录1、使用json模块的dumps方法:2、使用str方法:3、使用循环和字符串拼接:4、使用字符

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

Python打包成exe常用的四种方法小结

《Python打包成exe常用的四种方法小结》本文主要介绍了Python打包成exe常用的四种方法,包括PyInstaller、cx_Freeze、Py2exe、Nuitka,文中通过示例代码介绍的非... 目录一.PyInstaller11.安装:2. PyInstaller常用参数下面是pyinstal

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型: