Hive-2.HiveQL查询中JOIN语句

2023-11-29 04:08
文章标签 查询 join hive 语句 hiveql

本文主要是介绍Hive-2.HiveQL查询中JOIN语句,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Hive支持常用到的SQL JOIN语句,但是只支持等值连接。

4.1 INNER JOIN

内连接(INNER JOIN)中,只有进行连接的两个表中都存在与连接标准相匹配的数据才会展示出来。例如: 查询每个部门下的员工列表

 

查询语句:

select  t.deptname,e.name 

from  employees  e inner join dept t

on e.deptno=t.deptno

 

查询结果:

t.deptname      e.name

bss     wangwu1

bss     wangwu2

pso     wangwu3

pso     wangwu4

4.2 JOIN优化

Hive同时假定查询中的最后一个表示最大的那个表。在对每行记录进行连接操作时候,他们会尝试将其他的表缓存起来,然后扫描最后的那个表进行计算。因此,用户需要保证连接的表的大小从左到有是依次增加的。

 

假定dept是小表,employees是大表,一般的解决方案:

select  t.deptname,e.name 

from dept t  join employees  e

on t.deptno=e.deptno

 

但是,用户并非总是要讲最大的放置在查询语句的最后面。这是因为Hive还提供了一个“标记”机制来显示地告知查询优化器哪张表是最大的表,使用方式如下:

select /*+STREAMTABLE(e1)*/ t.deptname,e1.name

from   employees e1 join dept t on t.deptno=e1.deptno

where e1.country='China';

 

 

除上述join的优化外,也可以通过map-site join进行优化。

4.3 LEFT/RIGHT OUTER JOIN 

left join left outer join的简写,left join默认是outer属性的。

 

通过两种方法分别统计  查询每个部门的员工人员列表 

l 使用left join:左边关联的表全部显示出来

 

select  t.deptname,case when e.name is NULL then '该部门暂无人员' else e.name  end as name 

from dept t left join employees  e

on t.deptno=e.deptno

 

 

输出结果:

t.deptname      name

bss     wangwu1

bss     wangwu2

pso     wangwu3

pso     wangwu4

bdx     该部门暂无人员

 

l 使用right join: 右边的表数据全部显示出来

 

select  t.deptname,case when e.name is NULL then '该部门暂无人员' else e.name  end as name 

from  employees  e right join dept t

on e.deptno=t.deptno;

 

输出结果:

t.deptname      name

bss     wangwu1

bss     wangwu2

pso     wangwu3

pso     wangwu4

bdx     该部门暂无人员

4.5 LEFT SEMI-JOIN

查询所有的员工信息,这些员工的信息所属部门必须在dept

两种方案可以实现:

方案1:通过INNER JOIN

select e.*

from dept t inner join employees  e

on t.deptno=e.deptno

 

 

方案2:通过LEFT SEMI JOIN

select  e.*

from employees e

left semi join  

dept t

on  (

e.deptno=t.deptno

and t.deptno='d001')

 

 

注意: SELECTWHERE语句中不能饮用到右边表中的字段

 

通过两种实现对比,一般情况下LEFT SEMI JOININNER JOIN要更高效,原因如下:对于左表中的一条记录,在右边表中一旦找到匹配的记录,Hive就立即停止扫描。而不是匹配上要再次全表扫描右边的表。需要注意的: 通过这两个方案还有一个区别,就是若右边的表dept存在重复的记录,查询的结果是不一样的,原因就在于在查找dept记录时候存在是否终止的问题。

 

4.6 笛卡尔积JOIN

笛卡尔积是一种连接,表示左表和行数乘以右表的行数就是笛卡尔积的结果。

 

select * from dept t join employees  e;

 

一般情况下,这种没有条件的业务很少存在,但是笛卡尔积在一些情况下是很有用的。例如:

假设: 用户偏好表A,新闻文章B,同时有一个算法推测出用户(A)可能会喜欢读哪些文章(B),这个时候就需要使用笛卡尔积生成用户A和文章B所有网页的对应关系的集合

 

 

4.6 map-site JOIN

如果所有表中只有一张表是小表,那么可以在最大的表通过Mapper的时候将小标完全放倒内存中。Hive可以在map端执行连接过程(称为map-site join)。这样做的优点:

l 小表加入内存,省去常规连接操作所需要的reduce过程

l 同时减少map过程的执行步骤

 

需要注意的是,用户有两种方式使用该功能

(1) 直接通过SQL声明

select /*+mapjoin(t)*/ t.deptname,e1.name

from   employees e1 join dept t on t.deptno=e1.deptno

where e1.country='China';

(2) Hive配置来启用,用户也可以配置能够使用这个优化的小表大小

set hive.auto.convert.join=true;

set hive.mapjoin.smalltable.filesize=250000;

select  t.deptname,e1.name

from   employees e1 join dept t on t.deptno=e1.deptno

where e1.country='China';

这篇关于Hive-2.HiveQL查询中JOIN语句的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/431387

相关文章

sql语句字段截取方法

《sql语句字段截取方法》在MySQL中,使用SUBSTRING函数可以实现字段截取,下面给大家分享sql语句字段截取方法,感兴趣的朋友一起看看吧... 目录sql语句字段截取sql 截取表中指定字段sql语句字段截取1、在mysql中,使用SUBSTRING函数可以实现字段截取。例如,要截取一个字符串字

MySQL中like模糊查询的优化方案

《MySQL中like模糊查询的优化方案》在MySQL中,like模糊查询是一种常用的查询方式,但在某些情况下可能会导致性能问题,本文将介绍八种优化MySQL中like模糊查询的方法,需要的朋友可以参... 目录1. 避免以通配符开头的查询2. 使用全文索引(Full-text Index)3. 使用前缀索

基于Redis实现附近商铺查询功能

《基于Redis实现附近商铺查询功能》:本文主要介绍基于Redis实现-附近商铺查询功能,这个功能将使用到Redis中的GEO这种数据结构来实现,需要的朋友可以参考下... 目录基于Redis实现-附近查询1.GEO相关命令2.使用GEO来实现以下功能3.使用Java实现简China编程单的附近商铺查询4.Red

mysql递归查询语法WITH RECURSIVE的使用

《mysql递归查询语法WITHRECURSIVE的使用》本文主要介绍了mysql递归查询语法WITHRECURSIVE的使用,WITHRECURSIVE用于执行递归查询,特别适合处理层级结构或递归... 目录基本语法结构:关键部分解析:递归查询的工作流程:示例:员工与经理的层级关系解释:示例:树形结构的数

SQL常用操作精华之复制表、跨库查询、删除重复数据

《SQL常用操作精华之复制表、跨库查询、删除重复数据》:本文主要介绍SQL常用操作精华之复制表、跨库查询、删除重复数据,这些SQL操作涵盖了数据库开发中最常用的技术点,包括表操作、数据查询、数据管... 目录SQL常用操作精华总结表结构与数据操作高级查询技巧SQL常用操作精华总结表结构与数据操作复制表结

MySQL 复合查询案例详解

《MySQL复合查询案例详解》:本文主要介绍MySQL复合查询案例详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录基本查询回顾多表笛卡尔积子查询与where子查询多行子查询多列子查询子查询与from总结合并查询(不太重要)union基本查询回顾查询

MySQL复合查询从基础到多表关联与高级技巧全解析

《MySQL复合查询从基础到多表关联与高级技巧全解析》本文主要讲解了在MySQL中的复合查询,下面是关于本文章所需要数据的建表语句,感兴趣的朋友跟随小编一起看看吧... 目录前言:1.基本查询回顾:1.1.查询工资高于500或岗位为MANAGER的雇员,同时还要满足他们的姓名首字母为大写的J1.2.按照部门

MySQL 多表连接操作方法(INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN)

《MySQL多表连接操作方法(INNERJOIN、LEFTJOIN、RIGHTJOIN、FULLOUTERJOIN)》多表连接是一种将两个或多个表中的数据组合在一起的SQL操作,通过连接,... 目录一、 什么是多表连接?二、 mysql 支持的连接类型三、 多表连接的语法四、实战示例 数据准备五、连接的性

MyBatis模糊查询报错:ParserException: not supported.pos 问题解决

《MyBatis模糊查询报错:ParserException:notsupported.pos问题解决》本文主要介绍了MyBatis模糊查询报错:ParserException:notsuppo... 目录问题描述问题根源错误SQL解析逻辑深层原因分析三种解决方案方案一:使用CONCAT函数(推荐)方案二:

MySQL 中的 JSON 查询案例详解

《MySQL中的JSON查询案例详解》:本文主要介绍MySQL的JSON查询的相关知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 的 jsON 路径格式基本结构路径组件详解特殊语法元素实际示例简单路径复杂路径简写操作符注意MySQL 的 J