Hive SQL 分组与连接操作详解

2024-09-07 03:04

本文主要是介绍Hive SQL 分组与连接操作详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

分组

Group By语句

1. 案例实操

 Having语句

1. having 与 where 不同点

2. 案例实操

 Join语句

 等值Join

1. 案例实操

 表的别名

1. 好处

2. 案例实操

 内连接

 左外连接

 右外连接

 满外连接

 多表连接

1. 创建位置表

2. 导入数据

3. 多表连接查询

 笛卡尔集

1. 笛卡尔集会在下面条件下产生

2. 案例实操

 联合(union & union all)

1. union & union all 上下拼接

2. 案例实操


分组

Group By语句

Group By 语句通常会和聚合函数一起使用,按照一个或者多个列对结果进行分组,然后对每个组执行聚合操作。

1. 案例实操
  1. 计算 emp 表每个部门的平均工资

    SELECT t.deptno, AVG(t.sal) avg_sal 
    FROM emp t 
    GROUP BY t.deptno;
  2. 计算 emp 每个部门中每个岗位的最高薪水

    SELECT t.deptno, t.job, MAX(t.sal) max_sal 
    FROM emp t 
    GROUP BY t.deptno, t.job;

 Having语句

1. having 与 where 不同点
  1. where 后面不能写分组聚合函数,而 having 后面可以使用分组聚合函数。
  2. having 只用于 group by 分组统计语句。
2. 案例实操
  1. 求每个部门的平均薪水大于2000的部门

     

    ① 求每个部门的平均工资

    SELECT deptno, AVG(sal) 
    FROM emp 
    GROUP BY deptno;

    ② 求每个部门的平均薪水大于2000的部门

    SELECT deptno, AVG(sal) avg_sal 
    FROM emp 
    GROUP BY deptno 
    HAVING avg_sal > 2000;

 Join语句

 等值Join

Hive支持通常的SQL join 语句,但是只支持等值连接,不支持非等值连接。

1. 案例实操
  1. 根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称
    SELECT e.empno, e.ename, d.dname 
    FROM emp e 
    JOIN dept d 
    ON e.deptno = d.deptno;

 表的别名

1. 好处
  1. 使用别名可以简化查询。
  2. 区分字段的来源。
2. 案例实操

合并员工表和部门表。

SELECT e.*, d.* 
FROM emp e 
JOIN dept d 
ON e.deptno = d.deptno;

 内连接

内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。

SELECT e.empno, e.ename, d.deptno 
FROM emp e 
JOIN dept d 
ON e.deptno = d.deptno;

 左外连接

左外连接:join 操作符左边表中符合 where 子句的所有记录将会被返回。

SELECT e.empno, e.ename, d.deptno 
FROM emp e 
LEFT JOIN dept d 
ON e.deptno = d.deptno;

 右外连接

右外连接:join 操作符右边表中符合 where 子句的所有记录将会被返回。

SELECT e.empno, e.ename, d.deptno 
FROM emp e 
RIGHT JOIN dept d 
ON e.deptno = d.deptno;

 满外连接

满外连接:将会返回所有表中符合 where 语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用 null 值替代。

SELECT e.empno, e.ename, d.deptno 
FROM emp e 
FULL JOIN dept d 
ON e.deptno = d.deptno;

 多表连接

注意:连接 n 个表,至少需要 n-1 个连接条件。例如:连接三个表,至少需要两个连接条件。

1. 创建位置表
CREATE TABLE IF NOT EXISTS location (loc INT,      -- 部门位置idloc_name STRING  -- 部门位置
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
2. 导入数据
LOAD DATA LOCAL INPATH '/opt/module/hive/datas/location.txt' INTO TABLE location;
3. 多表连接查询
SELECT e.ename, d.dname, l.loc_name
FROM emp e 
JOIN dept d
ON d.deptno = e.deptno 
JOIN location l
ON d.loc = l.loc;

大多数情况下,Hive会对每对 join 连接对象启动一个 MapReduce 任务。本例中会首先启动一个 MapReduce job 对表 e 和表 d 进行连接操作,然后会再启动一个 MapReduce job 将第一个 MapReduce job 的输出和表 l 进行连接操作。

注意:为什么不是表 d 和表 l 先进行连接操作呢?这是因为 Hive 总是按照从左到右的顺序执行的。

 笛卡尔集

1. 笛卡尔集会在下面条件下产生
  1. 省略连接条件
  2. 连接条件无效
  3. 所有表中的所有行互相连接
2. 案例实操
SELECT empno, dname 
FROM emp, dept;

 联合(union & union all)

1. union & union all 上下拼接

unionunion all 都是上下拼接 SQL 的结果,这点是和 join 有区别的,join 是左右关联,unionunion all 是上下拼接。union 去重,union all 不去重。

unionunion all 在上下拼接 SQL 结果时有两个要求:

  1. 两个 SQL 的结果,列的个数必须相同
  2. 两个 SQL 的结果,上下所对应列的类型必须一致
2. 案例实操

将员工表 30 部门的员工信息和 40 部门的员工信息,利用 union 进行拼接显示。

SELECT *
FROM emp
WHERE deptno = 30
UNION
SELECT *
FROM emp
WHERE deptno = 40;

这篇关于Hive SQL 分组与连接操作详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1143875

相关文章

spring中的ImportSelector接口示例详解

《spring中的ImportSelector接口示例详解》Spring的ImportSelector接口用于动态选择配置类,实现条件化和模块化配置,关键方法selectImports根据注解信息返回... 目录一、核心作用二、关键方法三、扩展功能四、使用示例五、工作原理六、应用场景七、自定义实现Impor

MySQL MCP 服务器安装配置最佳实践

《MySQLMCP服务器安装配置最佳实践》本文介绍MySQLMCP服务器的安装配置方法,本文结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下... 目录mysql MCP 服务器安装配置指南简介功能特点安装方法数据库配置使用MCP Inspector进行调试开发指

mysql中insert into的基本用法和一些示例

《mysql中insertinto的基本用法和一些示例》INSERTINTO用于向MySQL表插入新行,支持单行/多行及部分列插入,下面给大家介绍mysql中insertinto的基本用法和一些示例... 目录基本语法插入单行数据插入多行数据插入部分列的数据插入默认值注意事项在mysql中,INSERT I

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

一文详解如何在idea中快速搭建一个Spring Boot项目

《一文详解如何在idea中快速搭建一个SpringBoot项目》IntelliJIDEA作为Java开发者的‌首选IDE‌,深度集成SpringBoot支持,可一键生成项目骨架、智能配置依赖,这篇文... 目录前言1、创建项目名称2、勾选需要的依赖3、在setting中检查maven4、编写数据源5、开启热

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

SQL Server数据库死锁处理超详细攻略

《SQLServer数据库死锁处理超详细攻略》SQLServer作为主流数据库管理系统,在高并发场景下可能面临死锁问题,影响系统性能和稳定性,这篇文章主要给大家介绍了关于SQLServer数据库死... 目录一、引言二、查询 Sqlserver 中造成死锁的 SPID三、用内置函数查询执行信息1. sp_w

HTML5 搜索框Search Box详解

《HTML5搜索框SearchBox详解》HTML5的搜索框是一个强大的工具,能够有效提升用户体验,通过结合自动补全功能和适当的样式,可以创建出既美观又实用的搜索界面,这篇文章给大家介绍HTML5... html5 搜索框(Search Box)详解搜索框是一个用于输入查询内容的控件,通常用于网站或应用程