Hive使用ORC格式存储离线表

2024-05-15 03:38

本文主要是介绍Hive使用ORC格式存储离线表,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[size=medium]
在大数据时代,列式存储变得越来越流行了,当然并不是说行式存储就没落了,只是针对的场景不同,行式存储的代表就是我们大多数时候经常用的数据库,比较适合数据量小,字段数目少,查询性能高的场景,列式存储主要针对大多数互联网公司中的业务字段数目多,数据量规模大,离线分析多的场景,这时候避免大量无用IO扫描,往往提高离线数据分析的性能,而且列式存储具有更高的压缩比,能够节省一定的磁盘IO和网络IO传输。

基础环境如下:

Apache Hadoop2.7.1
Apache Hbase0.98.12
Apache Hive1.2.1

先看下列式存储的两个代表框架:

Apache Parquet比较适合存储嵌套类型的数据,如json,avro,probuf,thrift等
Apache ORC是对RC格式的增强,支持大多数hive支持的数据类型,主要在压缩和查询层面做了优化。

具体请参考这篇文章:[url]http://wenda.chinahadoop.cn/question/333[/url]
[/size]

在hive中的文件格式主要如下几种:

textfile:默认的文本方式
Sequencefile:二进制格式
rcfile:面向列的二进制格式
orc:rcfile的增强版本,列式存储
parquet:列式存储,对嵌套类型数据支持较好

hive文件支持压缩方式:

这个与底层的hadoop有关,hadoop支持的压缩,hive都支持,主要有:
gzip,bizp,snappy,lzo

[size=medium]
文件格式可以与压缩类似任意组合,从而达到比较的压缩比。


下面看下具体以orc为例子的场景实战:
需求:
将Hbase的表的数据,加载到Hive中一份,用来离线分析使用。

看下几个步骤:

(1)集成Hive+Hbase,使得Hive可以关联查询Hbase表的数据,但需要注意的是,hbase表中的每个字段都有时间戳版本,而进行hive映射时是没办法
指定的timestamp的,在hive1.x之后可虽然可以指定,但是还是有问题的,不建议使用,如果想要标识这一个rowkey的最后修改或者更新时间,可以单独添加一个字段到hbase表中,
然后就可以使用Hive映射了。
关于hive+hbase集成,请参考这篇文章:[url]http://qindongliang.iteye.com/blog/2101094[/url]

(2)使用hive建立一个外部表,关联hbase,sql文件如下:
[/size]

drop table if exists etldb_hbase;
CREATE EXTERNAL TABLE etldb_hbase(rowkey string,
cnum string,
conn string,
cntype string,
cct string,
ctitle string,
curl string,
murl string,
mcat1 string,
mcat2 string,
mcat3 string,
mtitle string,
mconn string,
mcourtid string,
mdel string,
ctime string
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,
content:casenum,
content:conn,
content:contentType,
content:contentabstract,
content:title,
content:url,
meta:websiteType,
meta:documentType,
meta:spiderTypeFirst,
meta:spiderTypeSecond,
meta:title,
meta:content,
meta:hearOrganization,
meta:isdelete,
content:createTime
")
TBLPROPERTIES ("hbase.table.name" = "ETLDB");

[size=medium]
执行sql文件的hive命令:hive -f xxx.sql
执行sql字符串的hive命令: hive -e " select * from person "

(3)由于orc格式,无法直接从text加载到hive表中,所以需要加入一个中间临时表,用于中转数据,先将
text数据导入一个文件格式weitextfile的表,然后再把这个表的数据直接导入orc的表,当然现在我们的数据源
在hbase中,所以,先建立hive关联hbase的表,然后在建里一个orc的表,用来放数据,sql如下:
[/size]


drop table if exists etldb;

CREATE TABLE etldb(rowkey string,
cnum string,
conn string,
cntype string,
cct string,
ctitle string,
curl string,
murl string,
mcat1 string,
mcat2 string,
mcat3 string,
mtitle string,
mconn string,
mcourtid string,
mdel string,
ctime string
)

stored as orc
--stored as textfile;
tblproperties ("orc.compress"="SNAPPY");
--从临时表,加载数据到orc中
insert into table etldb select * from etldb_hbase;


[size=medium]
(4)加载完成后,就可以离线分析这个表了,用上orc+snappy的组合,查询时比直接
hive关联hbase表查询性能要高一点,当然缺点是数据与数据源hbase里的数据不同步,需要定时增量或者全量,用于离线分析。
[/size]

[b][color=green][size=large]
有什么问题 可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园
[/size][/color][/b]
[img]http://dl2.iteye.com/upload/attachment/0104/9948/3214000f-5633-3c17-a3d7-83ebda9aebff.jpg[/img]

这篇关于Hive使用ORC格式存储离线表的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990704

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

Linux join命令的使用及说明

《Linuxjoin命令的使用及说明》`join`命令用于在Linux中按字段将两个文件进行连接,类似于SQL的JOIN,它需要两个文件按用于匹配的字段排序,并且第一个文件的换行符必须是LF,`jo... 目录一. 基本语法二. 数据准备三. 指定文件的连接key四.-a输出指定文件的所有行五.-o指定输出

Linux jq命令的使用解读

《Linuxjq命令的使用解读》jq是一个强大的命令行工具,用于处理JSON数据,它可以用来查看、过滤、修改、格式化JSON数据,通过使用各种选项和过滤器,可以实现复杂的JSON处理任务... 目录一. 简介二. 选项2.1.2.2-c2.3-r2.4-R三. 字段提取3.1 普通字段3.2 数组字段四.

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本,并kill2.1 进程查看2.2 遇到的

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

k8s按需创建PV和使用PVC详解

《k8s按需创建PV和使用PVC详解》Kubernetes中,PV和PVC用于管理持久存储,StorageClass实现动态PV分配,PVC声明存储需求并绑定PV,通过kubectl验证状态,注意回收... 目录1.按需创建 PV(使用 StorageClass)创建 StorageClass2.创建 PV

Redis 基本数据类型和使用详解

《Redis基本数据类型和使用详解》String是Redis最基本的数据类型,一个键对应一个值,它的功能十分强大,可以存储字符串、整数、浮点数等多种数据格式,本文给大家介绍Redis基本数据类型和... 目录一、Redis 入门介绍二、Redis 的五大基本数据类型2.1 String 类型2.2 Hash

Redis中Hash从使用过程到原理说明

《Redis中Hash从使用过程到原理说明》RedisHash结构用于存储字段-值对,适合对象数据,支持HSET、HGET等命令,采用ziplist或hashtable编码,通过渐进式rehash优化... 目录一、开篇:Hash就像超市的货架二、Hash的基本使用1. 常用命令示例2. Java操作示例三

Linux创建服务使用systemctl管理详解

《Linux创建服务使用systemctl管理详解》文章指导在Linux中创建systemd服务,设置文件权限为所有者读写、其他只读,重新加载配置,启动服务并检查状态,确保服务正常运行,关键步骤包括权... 目录创建服务 /usr/lib/systemd/system/设置服务文件权限:所有者读写js,其他