pig的函数

2024-03-18 20:38
文章标签 函数 pig

本文主要是介绍pig的函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

判断某个网站的前缀,并给其打上特定的标签值:

一个java代码例子如下:

Java代码
  1. public String  getTag(){  
  2.     //url文本  
  3.     String url="http://www.baidu.com.cn";  
  4.     //标签值  
  5.     String tags=null;  
  6.     if(url.startsWith("http://www.baidu")){  
  7.         tags="1";  
  8.     }else if(url.startsWith("http://www.dhx")){  
  9.         tags="2";  
  10.     }else{  
  11.         tags="0";  
  12.     }  
  13.     return url;  
  14. }  
    public String  getTag(){//url文本String url="http://www.baidu.com.cn";//标签值String tags=null;if(url.startsWith("http://www.baidu")){tags="1";}else if(url.startsWith("http://www.dhx")){tags="2";}else{tags="0";}return url;}



原来我的解决方法,是写了个UDF函数,来搞定,后来想了想使用UDF虽然比较灵活,但是侵入性比较强,过程比较繁琐,尤其是还得maven打成jar包,注册pig的udf函数,所以,便可以使用pig的replace的函数,来解决:

REPLACE函数用法:
REPLACE(str,regex,str2):
解释一下,三个参数
第一个是原始数据
第二个是匹配的正则 ,需要注意一些特殊字符需要转义, java中匹配任何字符的正则式时.*
第三个是替换后的内容


例子数据:


Java代码 复制代码  收藏代码
  1. 1,2,3  
  2. 2,1,3  
  3. 6,7,1  
  4. 1,4,4  
  5. 121,45,100  
  6. 100,23,12  
  7. 600,12,50  
  8. 4,1,2  
  9. http://www.baidu.com,1,2  
  10. http://www.video.baidu.com,1,2  
  11. http://www.souhu.com.cn,1,2  
  12. http://www.dh.com,1,2  
  13. http://www.es.dh.com,1,2  
  14. http://www.baidu.com,1,2  
  15. http://www.baidu.com,1,2  
1,2,3
2,1,3
6,7,1
1,4,4
121,45,100
100,23,12
600,12,50
4,1,2
http://www.baidu.com,1,2
http://www.video.baidu.com,1,2
http://www.souhu.com.cn,1,2
http://www.dh.com,1,2
http://www.es.dh.com,1,2
http://www.baidu.com,1,2
http://www.baidu.com,1,2




需求,将第一列等于1的和以http://www.baidu开头的内容,替换成对应的中文称呼:
pig脚本如下:


Java代码 复制代码  收藏代码
  1. a = load '/test' using PigStorage(',');  
  2. --其他特殊字符需要转义 最后的.*代表,替换所有内容为指定内容  
  3. a = foreach a generate  REPLACE($0,'^http:\\/\\/www\\.baidu.*','百度') , $1 ;  
  4. --多次替换可执行多个foreach过滤  
  5. a = foreach a generate REPLACE($0,'^1$','一') , $1 ;   
  6.   
  7. dump a;  
a = load '/test' using PigStorage(',');
--其他特殊字符需要转义 最后的.*代表,替换所有内容为指定内容
a = foreach a generate  REPLACE($0,'^http:\\/\\/www\\.baidu.*','百度') , $1 ;
--多次替换可执行多个foreach过滤
a = foreach a generate REPLACE($0,'^1$','一') , $1 ; dump a;




执行结果如下:

Java代码 复制代码  收藏代码
  1. (一,2)  
  2. (2,1)  
  3. (6,7)  
  4. (一,4)  
  5. (121,45)  
  6. (100,23)  
  7. (600,12)  
  8. (4,1)  
  9. (百度,1)  
  10. (http://www.video.baidu.com,1)  
  11. (http://www.souhu.com.cn,1)  
  12. (http://www.dh.com,1)  
  13. (http://www.es.dh.com,1)  
  14. (百度,1)  
  15. (百度,1)  
(一,2)
(2,1)
(6,7)
(一,4)
(121,45)
(100,23)
(600,12)
(4,1)
(百度,1)
(http://www.video.baidu.com,1)
(http://www.souhu.com.cn,1)
(http://www.dh.com,1)
(http://www.es.dh.com,1)
(百度,1)
(百度,1)




这种方式,适合逻辑不是特别复杂的情况下使用,总体来看,比较简单方便易懂

这篇关于pig的函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/823576

相关文章

MySQL 中的 CAST 函数详解及常见用法

《MySQL中的CAST函数详解及常见用法》CAST函数是MySQL中用于数据类型转换的重要函数,它允许你将一个值从一种数据类型转换为另一种数据类型,本文给大家介绍MySQL中的CAST... 目录mysql 中的 CAST 函数详解一、基本语法二、支持的数据类型三、常见用法示例1. 字符串转数字2. 数字

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

MySQL count()聚合函数详解

《MySQLcount()聚合函数详解》MySQL中的COUNT()函数,它是SQL中最常用的聚合函数之一,用于计算表中符合特定条件的行数,本文给大家介绍MySQLcount()聚合函数,感兴趣的朋... 目录核心功能语法形式重要特性与行为如何选择使用哪种形式?总结深入剖析一下 mysql 中的 COUNT

MySQL 中 ROW_NUMBER() 函数最佳实践

《MySQL中ROW_NUMBER()函数最佳实践》MySQL中ROW_NUMBER()函数,作为窗口函数为每行分配唯一连续序号,区别于RANK()和DENSE_RANK(),特别适合分页、去重... 目录mysql 中 ROW_NUMBER() 函数详解一、基础语法二、核心特点三、典型应用场景1. 数据分

MySQL数据库的内嵌函数和联合查询实例代码

《MySQL数据库的内嵌函数和联合查询实例代码》联合查询是一种将多个查询结果组合在一起的方法,通常使用UNION、UNIONALL、INTERSECT和EXCEPT关键字,下面:本文主要介绍MyS... 目录一.数据库的内嵌函数1.1聚合函数COUNT([DISTINCT] expr)SUM([DISTIN

Python get()函数用法案例详解

《Pythonget()函数用法案例详解》在Python中,get()是字典(dict)类型的内置方法,用于安全地获取字典中指定键对应的值,它的核心作用是避免因访问不存在的键而引发KeyError错... 目录简介基本语法一、用法二、案例:安全访问未知键三、案例:配置参数默认值简介python是一种高级编

python 常见数学公式函数使用详解(最新推荐)

《python常见数学公式函数使用详解(最新推荐)》文章介绍了Python的数学计算工具,涵盖内置函数、math/cmath标准库及numpy/scipy/sympy第三方库,支持从基础算术到复杂数... 目录python 数学公式与函数大全1. 基本数学运算1.1 算术运算1.2 分数与小数2. 数学函数

Python中help()和dir()函数的使用

《Python中help()和dir()函数的使用》我们经常需要查看某个对象(如模块、类、函数等)的属性和方法,Python提供了两个内置函数help()和dir(),它们可以帮助我们快速了解代... 目录1. 引言2. help() 函数2.1 作用2.2 使用方法2.3 示例(1) 查看内置函数的帮助(

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五