hive中自定义UDT,UDTF函数

2024-05-01 00:38
文章标签 函数 自定义 hive udtf udt

本文主要是介绍hive中自定义UDT,UDTF函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

自定函数

**** 自定义函数

1.Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过自定义 UDF 来

方便的扩展。

2.当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义

函数(UDF:user-defined function)。

3根据用户自定义函数类别分为以下三种:

(1)UDF(User-Defined-Function)

一进一出

(2)UDAF(User-Defined Aggregation Function)

聚集函数,多进一出

类似于:count/max/min

(3)UDTF(User-Defined Table-Generating Functions)

一进多出

如 lateral view explode()

1.使用idea自定义UDF函数

自定义一个 UDF 实现计算给定字符串的长度,例如:

hive(default)> select my_len("abcd"); 

1.创建maven工程

2.导入依赖

<dependencies><dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>3.1.2</version></dependency></dependencies>

2.创建一个UDF类继承 GenericUDF 重写方法

package com.lhh.udf;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;/*** @program: hive-api* @description:* @author: 华仔* @create: 2021-03-25 22:43*/
//自定义 myudf
public class MyUDF extends GenericUDF {//初始化 校验数据参数个数public ObjectInspector initialize(ObjectInspector[] objectInspectors) throws UDFArgumentException {if (objectInspectors.length != 1) {throw new UDFArgumentException("参数个数不为1");}return PrimitiveObjectInspectorFactory.javaIntObjectInspector;}//计算 处理数据public Object evaluate(DeferredObject[] deferredObjects) throws HiveException {///取出数据String input = deferredObjects[0].get().toString();//判断数据是否为nullif (input == null) {return 0;}//返回输入数据的长度
//        return input.toUpperCase();//转大写
//        return input.toLowerCase();//转小写return input.length();}public String getDisplayString(String[] strings) {return "";}
}
2.自定义 UDTF 函数

1.需求

自定义一个 UDTF 实现将一个任意分割符的字符串切割成独立的单词,例如

hive(default)> select myudtf("hello,world,hadoop,hive", ",");
hello
world
hadoop
hive

2.代码实现

package com.lhh.udf;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;import java.util.ArrayList;
import java.util.List;/*** @program: hive-api* @description:* @author: 华仔* @create: 2021-03-25 23:23*/
//自定义myudtf/*** 输入数据: hello,atguigu,hive (stirng类型)* 输出数据 :* hello* atuigu* hive*/
public class MyUDTF extends GenericUDTF {//输出数据的集合private ArrayList<String> Output = new ArrayList<String>();//初始化 校验数据参数个数public StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {//输出数据的默认列名,可以被别名覆盖List<String> fieldNames = new ArrayList<String>();fieldNames.add("word");//输出数据的类型List<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);}//处理输入数据public void process(Object[] objects) throws HiveException {//第一步取出输入数据String input = objects[0].toString();//取出自己定义的分隔符 select my_udtf(name,',') String s1 = objects[1].toString();//按分割符拆分String[] split = input.split(s1);for (String s : split) {//清空集合Output.clear();//将数据添加到集合Output.add(s);//输出数据forward(Output);}}//首尾方法public void close() throws HiveException {}
}
3.在hive中使用自定义方法

1.将工程导成jar包放到 /opt/module/hive/lib/ 下面去

2.添加jar包

add jar /opt/module/hive/data/hive-demo-1.0-SNAPSHOT.jar;

3.为稳妥,直接ctrl +c 先退出一波

4.重新进来创建自定函数

 --UDFcreate temporary function my_len as 
"com.lhh.udf.MyUDF";--UDTFcreate temporary function my_udtf as 
"com.lhh.udf.MUDTF";

5.使用自定义函数

--UDF  计算长度
SELECT my_len('lhhhuazi') from test;
--UDTF
SELECT MY_UDTF(words,',') from test;

这篇关于hive中自定义UDT,UDTF函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/950313

相关文章

Python中help()和dir()函数的使用

《Python中help()和dir()函数的使用》我们经常需要查看某个对象(如模块、类、函数等)的属性和方法,Python提供了两个内置函数help()和dir(),它们可以帮助我们快速了解代... 目录1. 引言2. help() 函数2.1 作用2.2 使用方法2.3 示例(1) 查看内置函数的帮助(

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五

如何自定义一个log适配器starter

《如何自定义一个log适配器starter》:本文主要介绍如何自定义一个log适配器starter的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求Starter 项目目录结构pom.XML 配置LogInitializer实现MDCInterceptor

Python中bisect_left 函数实现高效插入与有序列表管理

《Python中bisect_left函数实现高效插入与有序列表管理》Python的bisect_left函数通过二分查找高效定位有序列表插入位置,与bisect_right的区别在于处理重复元素时... 目录一、bisect_left 基本介绍1.1 函数定义1.2 核心功能二、bisect_left 与

java中BigDecimal里面的subtract函数介绍及实现方法

《java中BigDecimal里面的subtract函数介绍及实现方法》在Java中实现减法操作需要根据数据类型选择不同方法,主要分为数值型减法和字符串减法两种场景,本文给大家介绍java中BigD... 目录Java中BigDecimal里面的subtract函数的意思?一、数值型减法(高精度计算)1.

C++/类与对象/默认成员函数@构造函数的用法

《C++/类与对象/默认成员函数@构造函数的用法》:本文主要介绍C++/类与对象/默认成员函数@构造函数的用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录名词概念默认成员函数构造函数概念函数特征显示构造函数隐式构造函数总结名词概念默认构造函数:不用传参就可以

C++类和对象之默认成员函数的使用解读

《C++类和对象之默认成员函数的使用解读》:本文主要介绍C++类和对象之默认成员函数的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、默认成员函数有哪些二、各默认成员函数详解默认构造函数析构函数拷贝构造函数拷贝赋值运算符三、默认成员函数的注意事项总结一

Druid连接池实现自定义数据库密码加解密功能

《Druid连接池实现自定义数据库密码加解密功能》在现代应用开发中,数据安全是至关重要的,本文将介绍如何在​​Druid​​连接池中实现自定义的数据库密码加解密功能,有需要的小伙伴可以参考一下... 目录1. 环境准备2. 密码加密算法的选择3. 自定义 ​​DruidDataSource​​ 的密码解密3

Python函数返回多个值的多种方法小结

《Python函数返回多个值的多种方法小结》在Python中,函数通常用于封装一段代码,使其可以重复调用,有时,我们希望一个函数能够返回多个值,Python提供了几种不同的方法来实现这一点,需要的朋友... 目录一、使用元组(Tuple):二、使用列表(list)三、使用字典(Dictionary)四、 使

spring-gateway filters添加自定义过滤器实现流程分析(可插拔)

《spring-gatewayfilters添加自定义过滤器实现流程分析(可插拔)》:本文主要介绍spring-gatewayfilters添加自定义过滤器实现流程分析(可插拔),本文通过实例图... 目录需求背景需求拆解设计流程及作用域逻辑处理代码逻辑需求背景公司要求,通过公司网络代理访问的请求需要做请