Hive中order by,sort by,distribute by,cluster by的区别

2024-09-06 11:32

本文主要是介绍Hive中order by,sort by,distribute by,cluster by的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一:order by

order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。关于order by的详细介绍请参考这篇文章:Hive Order by操作。


二:sort by

sort by不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只会保证每个reducer的输出有序,并不保证全局有序。sort by不同于order by,它不受hive.mapred.mode属性的影响,sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定),对输出的数据再执行归并排序,即可得到全部结果。


三:distribute by

distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,对应reduce的个数进行分发,默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下,你需要控制某个特定行应该到哪个reducer,这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此,distribute by经常和sort by配合使用。

注:Distribute by和sort by的使用场景

1.Map输出的文件大小不均。

2.Reduce输出文件大小不均。

3.小文件过多。

4.文件超大。


四:cluster by

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒叙排序,不能指定排序规则为ASC或者DESC。



示例:

#sort by

hive (hive)> select * from user;
OK
id	name
1	lavimer
2	liaozhongmin
3	liaozemin

使用sort by按id降序排列:

hive (hive)> select * from user sort by id desc;
//MapReduce...
Execution completed successfully
Mapred Local Task Succeeded . Convert the Join into MapJoin
OK
id	name
3	liaozemin
2	liaozhongmin
1	lavimer
Time taken: 3.828 seconds



#distribute by

hive (hive)> select * from user;
OK
id	name
1	lavimer
2	liaozhongmin
3	liaozemin
100	hello
200	hadoop

#设置reduce的个数

hive (hive)> set mapred.reduce.tasks=2;
hive (hive)> set mapred.reduce.tasks;  
mapred.reduce.tasks=2


#使用带distribute by的数据从user表中导出数据

hive (hive)> insert overwrite local directory '/usr/local/src/user.txt' select * from user distribute by id;
//MapReduce...
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 2

注:从上述语句执行过程可以看到启动了两个Reducer。

#导出到本地的数据

[root@liaozhongmin5 src]# cd user.txt/
[root@liaozhongmin5 user.txt]# ll
总用量 8
-rwxrwxrwx. 1 root root 36 130 14:35 000000_0
-rwxrwxrwx. 1 root root 22 130 14:35 000001_0
[root@liaozhongmin5 user.txt]# more 000000_0 
2	liaozhongmin
100	hello
200	hadoop
[root@liaozhongmin5 user.txt]# more 000001_0 
1	lavimer
3	liaozemin
[root@liaozhongmin5 user.txt]# 

注:从上述结果中,我们可以看到数据被分发到了两个Reducer中处理。


#distribute by和sort by结合使用

hive (hive)> select * from temperature;
OK
year	tempra
2008	30`C
2008	35`C
2008	32.5`C
2008	31.5`C
2008	31`C
2015	41`C
2015	39`C
2015	36`C
2015	33`C
2015	35`C
2015	37`C

#根据年份和气温对气象数据进行排序,以确保所具有相同年份的行最终都在一个reduce分区中。

hive (hive)> select * from temperature distribute by year sort by year asc,tempra desc;
//MapReduce...
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 2
//MapReduce...
OK
year	tempra
2008	35`C
2008	32.5`C
2008	31`C
2008	31.5`C
2008	30`C
2015	41`C
2015	39`C
2015	37`C
2015	36`C
2015	35`C
2015	33`C
Time taken: 17.358 seconds

这篇关于Hive中order by,sort by,distribute by,cluster by的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141877

相关文章

Before和BeforeClass的区别及说明

《Before和BeforeClass的区别及说明》:本文主要介绍Before和BeforeClass的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Before和BeforeClass的区别一个简单的例子当运行这个测试类时总结Before和Befor

Redis Cluster模式配置

《RedisCluster模式配置》:本文主要介绍RedisCluster模式配置,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录分片 一、分片的本质与核心价值二、分片实现方案对比 ‌三、分片算法详解1. ‌范围分片(顺序分片)‌2. ‌哈希分片3. ‌虚

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

Linux中的more 和 less区别对比分析

《Linux中的more和less区别对比分析》在Linux/Unix系统中,more和less都是用于分页查看文本文件的命令,但less是more的增强版,功能更强大,:本文主要介绍Linu... 目录1. 基础功能对比2. 常用操作对比less 的操作3. 实际使用示例4. 为什么推荐 less?5.

Java 关键字transient与注解@Transient的区别用途解析

《Java关键字transient与注解@Transient的区别用途解析》在Java中,transient是一个关键字,用于声明一个字段不会被序列化,这篇文章给大家介绍了Java关键字transi... 在Java中,transient 是一个关键字,用于声明一个字段不会被序列化。当一个对象被序列化时,被

解读@ConfigurationProperties和@value的区别

《解读@ConfigurationProperties和@value的区别》:本文主要介绍@ConfigurationProperties和@value的区别及说明,具有很好的参考价值,希望对大家... 目录1. 功能对比2. 使用场景对比@ConfigurationProperties@Value3. 核

Spring Boot拦截器Interceptor与过滤器Filter深度解析(区别、实现与实战指南)

《SpringBoot拦截器Interceptor与过滤器Filter深度解析(区别、实现与实战指南)》:本文主要介绍SpringBoot拦截器Interceptor与过滤器Filter深度解析... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现与实

关于Mybatis和JDBC的使用及区别

《关于Mybatis和JDBC的使用及区别》:本文主要介绍关于Mybatis和JDBC的使用及区别,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、JDBC1.1、流程1.2、优缺点2、MyBATis2.1、执行流程2.2、使用2.3、实现方式1、XML配置文件

exfat和ntfs哪个好? U盘格式化选择NTFS与exFAT的详细区别对比

《exfat和ntfs哪个好?U盘格式化选择NTFS与exFAT的详细区别对比》exFAT和NTFS是两种常见的文件系统,它们各自具有独特的优势和适用场景,以下是关于exFAT和NTFS的详细对比... 无论你是刚入手了内置 SSD 还是便携式移动硬盘或 U 盘,都需要先将它格式化成电脑或设备能够识别的「文

什么是ReFS 文件系统? ntfs和refs的优缺点区别介绍

《什么是ReFS文件系统?ntfs和refs的优缺点区别介绍》最近有用户在Win11Insider的安装界面中发现,可以使用ReFS来格式化硬盘,这是不是意味着,ReFS有望在未来成为W... 数十年以来,Windows 系统一直将 NTFS 作为「内置硬盘」的默认文件系统。不过近些年来,微软还在研发一款名