Hive QL常见问题总结

2024-01-05 22:08
文章标签 总结 hive 常见问题 ql

本文主要是介绍Hive QL常见问题总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  1. 首先是常用的一些官方文档地址:
    (1)官网文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
    (2)Hive简介及基础架构:
    https://geek-docs.com/hive/hive-tutorial/introduction-of-hive.html
    (3)Hive教程:
    https://www.yiibai.com/hive/hiveql_joins.html
    (4)SQL全部详细教程,一些跟Hive中一样,有参考意义:
    https://www.w3school.com.cn/sql/sql_wildcards.asp
    查看某个函数:desc function hash
    显示某个函数的扩展信息: desc function extended hash
    显示所有函数名称:show functions
  2. 统计表的所有条数或者表中某列数据的条数
    Sum(1)和count(*)一样,都是用来统计条数,将null值的条数也会计算在内,要想过滤掉null值的条数,使用count(column_name)
    参考链接:
    https://blog.csdn.net/longshenlmj/article/details/44858481
  3. 根据某列去重:
    使用district关键字
    参考链接:
    https://blog.csdn.net/lsxy117/article/details/50387395/
  4. hash函数的使用
    Hive中使用hash函数,可以将汉字字符串,比如将城市名转换为int类型hash值
  5. Hive表中case的使用
    下面这一段是根据city这个城市名列,将城市分成1,2,3等级,最后以列cityLevel的形式存储。
select uid,CASEwhen city RLIKE "上海|北京" as 1when city RLIKE "合肥|苏州" as 2else 3end as cityLevel
from TABLE
where pt = "${env.YYYYMMDD}"
  1. 计算日期跟当前日期的时间差
    需求如下:有一个数据格式未知的时间列,我们希望计算跟当前时间的天数差距是否在360天以内,在内的都计算进来。
    我们首先需要提取这个时间列里面的日期,需要精确到日。我们使用函数:
    to_data,举例如下:
    select to_date('2018-12-08 10:03:01');--2018-12-08 返回日期时间字段中的日期部分
    然后跟当前时间比较,提取相应的信息即可:
to_date(pay_time) >= '${env.YYYYMMDD_P364D}'

,p表示当前时间向前多少天

Select 
Ordr
Where to_date(pay_time) >= '${env.YYYYMMDD_P364D}'

取其他时间粒度,比如年,月的值可以参考:
https://blog.csdn.net/weixin_38750084/article/details/93382634
还有一种方式:

split(pay_time,' ')[0] between date_sub('${env.YYYYMMDD}', 29) and '${env.YYYYMMDD}'

这种方式需要知道pay_time的时间串具体格式,不太实用。

  1. Having关键字
    having根据group by之后的的分组统计筛选,也是一种筛选方式,跟where的区别是:
    where作用于表中的列,having作用于查询结果中的列
    where后不能写分组函数,having后可以使用分组函数
    参考链接:
    https://blog.csdn.net/a3125504x/article/details/106987371
  2. 判断某表中类型为array类型的列中是否包含某个字段
    比如现有table1
    Col1 col2 col3
    1 a [a,b]
    2 b [c,b]
    使用array_contains:
Select * from table1 where array_contains(col3,’a’)

参考链接:
https://blog.csdn.net/junjie20082008/article/details/106123899/

  1. 对于无列名列的读取
    如果我们运算出来的结果忘记指定列名了,比如:
Select max(col1), col1 from table1 group by col1

那么结果的列名就会成为_col2,col1之类的
我们应该怎么获取_col2这一列的值呢?加反引号,比如:

Select `_col2` from table2 

这篇关于Hive QL常见问题总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/574302

相关文章

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

Java 字符串操作之contains 和 substring 方法最佳实践与常见问题

《Java字符串操作之contains和substring方法最佳实践与常见问题》本文给大家详细介绍Java字符串操作之contains和substring方法最佳实践与常见问题,本文结合实例... 目录一、contains 方法详解1. 方法定义与语法2. 底层实现原理3. 使用示例4. 注意事项二、su

Python中logging模块用法示例总结

《Python中logging模块用法示例总结》在Python中logging模块是一个强大的日志记录工具,它允许用户将程序运行期间产生的日志信息输出到控制台或者写入到文件中,:本文主要介绍Pyt... 目录前言一. 基本使用1. 五种日志等级2.  设置报告等级3. 自定义格式4. C语言风格的格式化方法

Spring 依赖注入与循环依赖总结

《Spring依赖注入与循环依赖总结》这篇文章给大家介绍Spring依赖注入与循环依赖总结篇,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. Spring 三级缓存解决循环依赖1. 创建UserService原始对象2. 将原始对象包装成工

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

解决hive启动时java.net.ConnectException:拒绝连接的问题

《解决hive启动时java.net.ConnectException:拒绝连接的问题》Hadoop集群连接被拒,需检查集群是否启动、关闭防火墙/SELinux、确认安全模式退出,若问题仍存,查看日志... 目录错误发生原因解决方式1.关闭防火墙2.关闭selinux3.启动集群4.检查集群是否正常启动5.

在Java中实现线程之间的数据共享的几种方式总结

《在Java中实现线程之间的数据共享的几种方式总结》在Java中实现线程间数据共享是并发编程的核心需求,但需要谨慎处理同步问题以避免竞态条件,本文通过代码示例给大家介绍了几种主要实现方式及其最佳实践,... 目录1. 共享变量与同步机制2. 轻量级通信机制3. 线程安全容器4. 线程局部变量(ThreadL

kkFileView在线预览office的常见问题以及解决方案

《kkFileView在线预览office的常见问题以及解决方案》kkFileView在线预览Office常见问题包括base64编码配置、Office组件安装、乱码处理及水印添加,解决方案涉及版本适... 目录kkFileView在线预览office的常见问题1.base642.提示找不到OFFICE组件

Spring Boot 与微服务入门实战详细总结

《SpringBoot与微服务入门实战详细总结》本文讲解SpringBoot框架的核心特性如快速构建、自动配置、零XML与微服务架构的定义、演进及优缺点,涵盖开发环境准备和HelloWorld实战... 目录一、Spring Boot 核心概述二、微服务架构详解1. 微服务的定义与演进2. 微服务的优缺点三