Hive QL常见问题总结

2024-01-05 22:08
文章标签 总结 hive 常见问题 ql

本文主要是介绍Hive QL常见问题总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  1. 首先是常用的一些官方文档地址:
    (1)官网文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
    (2)Hive简介及基础架构:
    https://geek-docs.com/hive/hive-tutorial/introduction-of-hive.html
    (3)Hive教程:
    https://www.yiibai.com/hive/hiveql_joins.html
    (4)SQL全部详细教程,一些跟Hive中一样,有参考意义:
    https://www.w3school.com.cn/sql/sql_wildcards.asp
    查看某个函数:desc function hash
    显示某个函数的扩展信息: desc function extended hash
    显示所有函数名称:show functions
  2. 统计表的所有条数或者表中某列数据的条数
    Sum(1)和count(*)一样,都是用来统计条数,将null值的条数也会计算在内,要想过滤掉null值的条数,使用count(column_name)
    参考链接:
    https://blog.csdn.net/longshenlmj/article/details/44858481
  3. 根据某列去重:
    使用district关键字
    参考链接:
    https://blog.csdn.net/lsxy117/article/details/50387395/
  4. hash函数的使用
    Hive中使用hash函数,可以将汉字字符串,比如将城市名转换为int类型hash值
  5. Hive表中case的使用
    下面这一段是根据city这个城市名列,将城市分成1,2,3等级,最后以列cityLevel的形式存储。
select uid,CASEwhen city RLIKE "上海|北京" as 1when city RLIKE "合肥|苏州" as 2else 3end as cityLevel
from TABLE
where pt = "${env.YYYYMMDD}"
  1. 计算日期跟当前日期的时间差
    需求如下:有一个数据格式未知的时间列,我们希望计算跟当前时间的天数差距是否在360天以内,在内的都计算进来。
    我们首先需要提取这个时间列里面的日期,需要精确到日。我们使用函数:
    to_data,举例如下:
    select to_date('2018-12-08 10:03:01');--2018-12-08 返回日期时间字段中的日期部分
    然后跟当前时间比较,提取相应的信息即可:
to_date(pay_time) >= '${env.YYYYMMDD_P364D}'

,p表示当前时间向前多少天

Select 
Ordr
Where to_date(pay_time) >= '${env.YYYYMMDD_P364D}'

取其他时间粒度,比如年,月的值可以参考:
https://blog.csdn.net/weixin_38750084/article/details/93382634
还有一种方式:

split(pay_time,' ')[0] between date_sub('${env.YYYYMMDD}', 29) and '${env.YYYYMMDD}'

这种方式需要知道pay_time的时间串具体格式,不太实用。

  1. Having关键字
    having根据group by之后的的分组统计筛选,也是一种筛选方式,跟where的区别是:
    where作用于表中的列,having作用于查询结果中的列
    where后不能写分组函数,having后可以使用分组函数
    参考链接:
    https://blog.csdn.net/a3125504x/article/details/106987371
  2. 判断某表中类型为array类型的列中是否包含某个字段
    比如现有table1
    Col1 col2 col3
    1 a [a,b]
    2 b [c,b]
    使用array_contains:
Select * from table1 where array_contains(col3,’a’)

参考链接:
https://blog.csdn.net/junjie20082008/article/details/106123899/

  1. 对于无列名列的读取
    如果我们运算出来的结果忘记指定列名了,比如:
Select max(col1), col1 from table1 group by col1

那么结果的列名就会成为_col2,col1之类的
我们应该怎么获取_col2这一列的值呢?加反引号,比如:

Select `_col2` from table2 

这篇关于Hive QL常见问题总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/574302

相关文章

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

Nginx Location映射规则总结归纳与最佳实践

《NginxLocation映射规则总结归纳与最佳实践》Nginx的location指令是配置请求路由的核心机制,其匹配规则直接影响请求的处理流程,下面给大家介绍NginxLocation映射规则... 目录一、Location匹配规则与优先级1. 匹配模式2. 优先级顺序3. 匹配示例二、Proxy_pa

Swagger在java中的运用及常见问题解决

《Swagger在java中的运用及常见问题解决》Swagger插件是一款深受Java开发者喜爱的工具,它在前后端分离的开发模式下发挥着重要作用,:本文主要介绍Swagger在java中的运用及常... 目录前言1. Swagger 的主要功能1.1 交互式 API 文档1.2 客户端 SDK 生成1.3

java连接opcua的常见问题及解决方法

《java连接opcua的常见问题及解决方法》本文将使用EclipseMilo作为示例库,演示如何在Java中使用匿名、用户名密码以及证书加密三种方式连接到OPCUA服务器,若需要使用其他SDK,原理... 目录一、前言二、准备工作三、匿名方式连接3.1 匿名方式简介3.2 示例代码四、用户名密码方式连接4

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

在Spring Boot中实现HTTPS加密通信及常见问题排查

《在SpringBoot中实现HTTPS加密通信及常见问题排查》HTTPS是HTTP的安全版本,通过SSL/TLS协议为通讯提供加密、身份验证和数据完整性保护,下面通过本文给大家介绍在SpringB... 目录一、HTTPS核心原理1.加密流程概述2.加密技术组合二、证书体系详解1、证书类型对比2. 证书获

Java中的Closeable接口及常见问题

《Java中的Closeable接口及常见问题》Closeable是Java中的一个标记接口,用于表示可以被关闭的对象,它定义了一个标准的方法来释放对象占用的系统资源,下面给大家介绍Java中的Clo... 目录1. Closeable接口概述2. 主要用途3. 实现类4. 使用方法5. 实现自定义Clos

MySQL基本查询示例总结

《MySQL基本查询示例总结》:本文主要介绍MySQL基本查询示例总结,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Create插入替换Retrieve(读取)select(确定列)where条件(确定行)null查询order by语句li

Linux区分SSD和机械硬盘的方法总结

《Linux区分SSD和机械硬盘的方法总结》在Linux系统管理中,了解存储设备的类型和特性是至关重要的,不同的存储介质(如固态硬盘SSD和机械硬盘HDD)在性能、可靠性和适用场景上有着显著差异,本文... 目录一、lsblk 命令简介基本用法二、识别磁盘类型的关键参数:ROTA查询 ROTA 参数ROTA

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义