pig简单介绍

2024-05-09 06:48
文章标签 简单 介绍 pig

本文主要是介绍pig简单介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

                                                                  pig简单介绍

1.load:从文件中读取数据()
  用法:athletes = LOAD 'hdfs://master:9000/OlympicAthletes.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'YES_MULTILINE', 'NOCHANGE', 'SKIP_INPUT_HEADER')  AS (athlete:chararray, country:chararray, year:int, sport:chararray, gold:int, silver:int, bronze:int, total:int);
  注意:load和=之间有空格
2. dump :把操作结果读取到屏幕
   用法:  DUMP athletes
3.limit:限制前面多少条
   用法:athletes_lim = LIMIT athletes 10;
         DUMP athletes_lim;
4.GROUP BY:按照字段分组(根据国家分组)
  用法: athletes_grp_country = GROUP athletes BY country;
5.DESCRIBE(描述结构)
 用法:describe athletes_grp_country
6.FOREACH … GENERATE(统计出每个国家(country)赢了多少金牌(sum(athletes.total)))
  medal_sum = FOREACH athletes_grp_country GENERATE group AS country, SUM(athletes.total) as medal_count;
  DUMP medal_sum;
  注意:athletes_grp_country是按照国家分组后的结果
7.distinct(把重复国家去掉)
    distinct_countries = DISTINCT (FOREACH athletes GENERATE country);
    DUMP distinct_countries;
   这里或者可以写成这样:
   a =  FOREACH athletes GENERATE country;
   distinct_countries = DISTINCT a;
   DUMP distinct_countries;
8. GROUP ALL
   data_range = FOREACH (GROUP athletes ALL) GENERATE MIN(athletes.year) as min_year, MAX(athletes.year) as max_year;
   DUMP data_range;
  注意: MIN  MAX区分大小写
9. order  .... by ....排序(按照金牌数降序排序)
   ordered_medals = ORDER medal_sum BY medal_count DESC;
    ordered_medals_lim = LIMIT ordered_medals 1;
    DUMP ordered_medals_lim;   
10.filter(找出不是游泳,根据国家分组,最高金牌的国家的金牌数)
   athletes_filter = FILTER athletes by sport != 'Swimming';
   medal_sum = FOREACH (GROUP athletes_filter BY country) GENERATE group as country, SUM(athletes_filter.total_medals) as medal_count;
   ordered_medals = ORDER medal_sum BY medal_count DESC;
   ordered_medals_lim = LIMIT ordered_medals 1;
   DUMP ordered_medals_lim; 
   注意:问题:多少国家只赢一个金牌?
    deco = filter medial_sum by count_medial == 1;
    suna= foreach (group deco all) generate COUNT(deco.count_medial);
11. join(他们已经获得了在连续的奥运会奖牌数相同的运动员)
    copy复制  athletes_copy = FOREACH athletes GENERATE athlete, year as year2, total as total2;
       athletes_join = JOIN athletes BY athlete, athletes_copy BY athlete;
      athletes_join_filtered = FILTER athletes_join BY total == total2 AND year2 == year+4;     
      athletes_output = FOREACH athletes_join_filtered GENERATE athletes::athlete as athlete, total2, year, year2; 
    这里有点问题!!!!!!!!
12.split()
    SPLIT athletes INTO
            summer_olympics IF year % 4 == 0,
            winter_olympics IF year % 4 != 0;
















from pig_util import outputSchema


@outputSchema('score:int')
def calculate_score(gold, silver, bronze):
    return 3 * gold + 2 * silver + bronze




REGISTER 'olympic_udfs.py' USING streaming_python AS udf




athlete_score = FOREACH athletes GENERATE athlete, udf.calculate_score(gold_medal, silver_medal, bronze_medal) as score;
      


问题:
找出哪个国家分数最高的冬季奥运会上我们的新指标


解决方法:
新建olympic_udfs.py内容如下4行:
from pig_util import outputSchema
@outputSchema('score:int')
def calculate_score(gold, silver, bronze):
    return 3 * gold + 2 * silver + bronze






register '/usr/local/pig/contrib/piggybank/java/piggybank.jar'     
REGISTER '/root/olympic_udfs.py' USING streaming_python AS udf


athletes = LOAD 'hdfs://master:9000/OlympicAthletes.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'YES_MULTILINE', 'NOCHANGE', 'SKIP_INPUT_HEADER')  AS (athlete:chararray, country:chararray, year:int, sport:chararray, gold:int, silver:int, bronze:int, total:int);
SPLIT athletes INTO summer_olympics IF year % 4 == 0, winter_olympics IF year % 4 != 0;


1.winter_medal_sum = FOREACH (GROUP winter_olympics BY country) GENERATE group AS country, SUM(winter_olympics.gold)   as gold_sum, SUM(winter_olympics.silver) as silver_sum, SUM(winter_olympics.bronze) as bronze_sum;
3.country_scores = FOREACH winter_medal_sum GENERATE country, udf.calculate_score(gold_sum, silver_sum, bronze_sum) as score;
4.ordered_winter_medals = ORDER country_scores BY score DESC;
5.ordered_winter_medals_lim = LIMIT ordered_winter_medals 1;
DUMP ordered_winter_medals_lim; 


这篇关于pig简单介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/972687

相关文章

GO语言实现串口简单通讯

《GO语言实现串口简单通讯》本文分享了使用Go语言进行串口通讯的实践过程,详细介绍了串口配置、数据发送与接收的代码实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 目录背景串口通讯代码代码块分解解析完整代码运行结果背景最近再学习 go 语言,在某宝用5块钱买了个

SpringBoot整合Apache Spark实现一个简单的数据分析功能

《SpringBoot整合ApacheSpark实现一个简单的数据分析功能》ApacheSpark是一个开源的大数据处理框架,它提供了丰富的功能和API,用于分布式数据处理、数据分析和机器学习等任务... 目录第一步、添加android依赖第二步、编写配置类第三步、编写控制类启动项目并测试总结ApacheS

C++简单日志系统实现代码示例

《C++简单日志系统实现代码示例》日志系统是成熟软件中的一个重要组成部分,其记录软件的使用和运行行为,方便事后进行故障分析、数据统计等,:本文主要介绍C++简单日志系统实现的相关资料,文中通过代码... 目录前言Util.hppLevel.hppLogMsg.hppFormat.hppSink.hppBuf

Redis的安全机制详细介绍及配置方法

《Redis的安全机制详细介绍及配置方法》本文介绍Redis安全机制的配置方法,包括绑定IP地址、设置密码、保护模式、禁用危险命令、防火墙限制、TLS加密、客户端连接限制、最大内存使用和日志审计等,通... 目录1. 绑定 IP 地址2. 设置密码3. 保护模式4. 禁用危险命令5. 通过防火墙限制访问6.

5 种使用Python自动化处理PDF的实用方法介绍

《5种使用Python自动化处理PDF的实用方法介绍》自动化处理PDF文件已成为减少重复工作、提升工作效率的重要手段,本文将介绍五种实用方法,从内置工具到专业库,帮助你在Python中实现PDF任务... 目录使用内置库(os、subprocess)调用外部工具使用 PyPDF2 进行基本 PDF 操作使用

Python实现简单封装网络请求的示例详解

《Python实现简单封装网络请求的示例详解》这篇文章主要为大家详细介绍了Python实现简单封装网络请求的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录安装依赖核心功能说明1. 类与方法概览2.NetHelper类初始化参数3.ApiResponse类属性与方法使用实

Python 基于http.server模块实现简单http服务的代码举例

《Python基于http.server模块实现简单http服务的代码举例》Pythonhttp.server模块通过继承BaseHTTPRequestHandler处理HTTP请求,使用Threa... 目录测试环境代码实现相关介绍模块简介类及相关函数简介参考链接测试环境win11专业版python

Java中HashMap的用法详细介绍

《Java中HashMap的用法详细介绍》JavaHashMap是一种高效的数据结构,用于存储键值对,它是基于哈希表实现的,提供快速的插入、删除和查找操作,:本文主要介绍Java中HashMap... 目录一.HashMap1.基本概念2.底层数据结构:3.HashCode和equals方法为什么重写Has

Springboot项目构建时各种依赖详细介绍与依赖关系说明详解

《Springboot项目构建时各种依赖详细介绍与依赖关系说明详解》SpringBoot通过spring-boot-dependencies统一依赖版本管理,spring-boot-starter-w... 目录一、spring-boot-dependencies1.简介2. 内容概览3.核心内容结构4.

python连接sqlite3简单用法完整例子

《python连接sqlite3简单用法完整例子》SQLite3是一个内置的Python模块,可以通过Python的标准库轻松地使用,无需进行额外安装和配置,:本文主要介绍python连接sqli... 目录1. 连接到数据库2. 创建游标对象3. 创建表4. 插入数据5. 查询数据6. 更新数据7. 删除