HIVE_HIVE函数_窗口函数_LAG()/LEAD() 详解

2024-05-03 05:48
文章标签 函数 详解 窗口 hive lag lead

本文主要是介绍HIVE_HIVE函数_窗口函数_LAG()/LEAD() 详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

参考文章:

1.ORALCE函数:LAG()和LEAD() 分析函数详解、

https://blog.csdn.net/pelifymeng2/article/details/70313943

 

 

LAG, LEAD 函数简单介绍

 Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。

  在实际应用当中,若要用到取今天和昨天的某字段差值时,Lag和Lead函数的应用就显得尤为重要。当然,这种操作可以用表的自连接实现,但是 LAG 和 LEAD 与 left join、right join 等自连接相比,效率更高,SQL更简洁。下面我就对这两个函数做一个简单的介绍。 
 

 

函数语法

lag(exp_str,offset,defval) over(partion by ..order by …)

lead(exp_str,offset,defval) over(partion by ..order by …)

其中exp_str是字段名

     Offset是偏移量,即是上1个或上N个的值,假设当前行在表中排在第5行,则offset 为3,则表示我们所要找的数据行就是表中的第2行(即5-3=2)。

     Defval默认值,当两个函数取上N/下N个值,当在表中从当前行位置向前数N行已经超出了表的范围时,lag()函数将defval这个参数值作为函数的返回值,若没有指定默认值,则返回NULL,那么在数学运算中,总要给一个默认值才不会出错。
 

例子 

构建表,插入测试数据

use data_warehouse_test;CREATE TABLE IF NOT EXISTS user_old_salary_info (user_name STRING,salary_vaild_date STRING,salary BIGINT
)
;INSERT OVERWRITE TABLE user_old_salary_info VALUES
('szh', '2011-11-06', 1000)
,('sx', '2011-11-07', 2000)
,('szh', '2015-06-11', 4000)
,('sx', '2016-07-12', 5000)
,('szh', '2017-08-20', 10000)
,('sg', '2017-08-20', 30000)
,('szh', '2020-06-20', 25000)
;

进行相关查询

use data_warehouse_test;SELECT * 
FROM user_old_salary_info
;SELECT user_name, salary, LAG(salary, 1, 0) OVER(PARTITION BY user_name ORDER BY salary_vaild_date) AS last_salary
FROM user_old_salary_info
;SELECT user_name, salary, LEAD(salary, 1, 0) OVER() AS next_salary
FROM user_old_salary_info
;

 

 

查询表中所有的记录:

SELECT * 
FROM user_old_salary_info
;

+---------------------------------+-----------------------------------------+------------------------------+
| user_old_salary_info.user_name  | user_old_salary_info.salary_vaild_date  | user_old_salary_info.salary  |
+---------------------------------+-----------------------------------------+------------------------------+
| szh                             | 2011-11-06                              | 1000                         |
| sx                              | 2011-11-07                              | 2000                         |
| szh                             | 2015-06-11                              | 4000                         |
| sx                              | 2016-07-12                              | 5000                         |
| szh                             | 2017-08-20                              | 10000                        |
| sg                              | 2017-08-20                              | 30000                        |
| szh                             | 2020-06-20                              | 25000                        |
+---------------------------------+-----------------------------------------+------------------------------+

 

=============================

 

某一个员工 本次的薪水 和 上一次的薪水

SELECT user_name, salary, LAG(salary, 1, 0) OVER(PARTITION BY user_name ORDER BY salary_vaild_date) AS last_salary
FROM user_old_salary_info
;

 

+------------+---------+--------------+
| user_name  | salary  | last_salary  |
+------------+---------+--------------+
| sg         | 30000   | 0            |
| sx         | 2000    | 0            |
| sx         | 5000    | 2000         |
| szh        | 1000    | 0            |
| szh        | 4000    | 1000         |
| szh        | 10000   | 4000         |
| szh        | 25000   | 10000        |
+------------+---------+--------------+

 

=============================

 

顺序查看 本次的薪水 和 上一次的薪水

SELECT user_name, salary, LEAD(salary, 1, 0) OVER() AS next_salary
FROM user_old_salary_info
;

 

+------------+---------+--------------+
| user_name  | salary  | next_salary  |
+------------+---------+--------------+
| szh        | 25000   | 30000        |
| sg         | 30000   | 10000        |
| szh        | 10000   | 5000         |
| sx         | 5000    | 4000         |
| szh        | 4000    | 2000         |
| sx         | 2000    | 1000         |
| szh        | 1000    | 0            |
+------------+---------+--------------+

 

这篇关于HIVE_HIVE函数_窗口函数_LAG()/LEAD() 详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/955957

相关文章

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

MySQL常用字符串函数示例和场景介绍

《MySQL常用字符串函数示例和场景介绍》MySQL提供了丰富的字符串函数帮助我们高效地对字符串进行处理、转换和分析,本文我将全面且深入地介绍MySQL常用的字符串函数,并结合具体示例和场景,帮你熟练... 目录一、字符串函数概述1.1 字符串函数的作用1.2 字符串函数分类二、字符串长度与统计函数2.1

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

idea的终端(Terminal)cmd的命令换成linux的命令详解

《idea的终端(Terminal)cmd的命令换成linux的命令详解》本文介绍IDEA配置Git的步骤:安装Git、修改终端设置并重启IDEA,强调顺序,作为个人经验分享,希望提供参考并支持脚本之... 目录一编程、设置前二、前置条件三、android设置四、设置后总结一、php设置前二、前置条件

python中列表应用和扩展性实用详解

《python中列表应用和扩展性实用详解》文章介绍了Python列表的核心特性:有序数据集合,用[]定义,元素类型可不同,支持迭代、循环、切片,可执行增删改查、排序、推导式及嵌套操作,是常用的数据处理... 目录1、列表定义2、格式3、列表是可迭代对象4、列表的常见操作总结1、列表定义是处理一组有序项目的

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

C++11范围for初始化列表auto decltype详解

《C++11范围for初始化列表autodecltype详解》C++11引入auto类型推导、decltype类型推断、统一列表初始化、范围for循环及智能指针,提升代码简洁性、类型安全与资源管理效... 目录C++11新特性1. 自动类型推导auto1.1 基本语法2. decltype3. 列表初始化3

SQL Server 中的 WITH (NOLOCK) 示例详解

《SQLServer中的WITH(NOLOCK)示例详解》SQLServer中的WITH(NOLOCK)是一种表提示,等同于READUNCOMMITTED隔离级别,允许查询在不获取共享锁的情... 目录SQL Server 中的 WITH (NOLOCK) 详解一、WITH (NOLOCK) 的本质二、工作

springboot自定义注解RateLimiter限流注解技术文档详解

《springboot自定义注解RateLimiter限流注解技术文档详解》文章介绍了限流技术的概念、作用及实现方式,通过SpringAOP拦截方法、缓存存储计数器,结合注解、枚举、异常类等核心组件,... 目录什么是限流系统架构核心组件详解1. 限流注解 (@RateLimiter)2. 限流类型枚举 (

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原