python 实现Hadoop的partitioner和二次排序

2024-04-02 21:18

本文主要是介绍python 实现Hadoop的partitioner和二次排序,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

我们知道,一个典型的Map-Reduce过程包 括:Input->Map->Patition->Reduce->Output。Pation负责把Map任务输出的中间结果 按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner,通过配置相应的参数就可以使用。通过 KeyFieldBasedPartitioner可以方便地实现二次排序。
使用方法:
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
一般配合:
-D map.output.key.field.separator及-D num.key.fields.for.partition使用。
map.output.key.field.separator指定key内部的分隔符
num.key.fields.for.partition指定对key分出来的前几部分做partition而不是整个key

示例:
1. 编写map程序mapper.sh;reduce程序reducer.sh; 测试数据test.txt
view plain

mapper.sh:

!/bin/sh cat

reducer.sh:

!/bin/sh sort

test.txt内容:

1,2,1,1,1

1,2,2,1,1

1,3,1,1,1

1,3,2,1,1

1,3,3,1,1

1,2,3,1,1

1,3,1,1,1

1,3,2,1,1

1,3,3,1,1

  1. 测试数据test.txt放入hdfs,运行map-reduce程序
    view plain

$ hadoop streaming /

-D stream.map.output.field.separator=, /

-D stream.num.map.output.key.fields=4 /

-D map.output.key.field.separator=, /

-D num.key.fields.for.partition=2 /

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /

-input /app/test/test.txt /

-output /app/test/test_result /
-mapper ./mapper.sh /

-reducer ./reducer.sh /

-file mapper.sh /

-file reducer.sh /

-jobconf mapre.job.name=”sep_test”

$ hadoop fs –cat /app/test/test_result/part-00003

1,2,1,1 1

1,2,2,1 1

1,2,3,1 1

$ hadoop fs –cat /app/test/test_result/part-00004

1,3,1,1 1

1,3,1,1 1

1,3,2,1 1

1,3,2,1 1

1,3,3,1 1

1,3,3,1 1
通过这种方式,就做到前4个字段是key,但是通过前两个字段进行partition的目的
注意:

-D map.output.key.field.separator=, /
这个分隔符使用TAB键貌似不管用

Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程
工作流程 :
InputFile –> mappers –> [Partitioner] –> reducers –> outputFiles
理解 :
1 输入文件,可以是指定远程文件系统内的文件夹下的 *
2 通过集群自己分解到各个PC上,每个mapper是一个可执行文件,相应的启动一个进程,来实现你的逻辑
3 mapper 的输入为标准输入,所以,任何能够支持标准输入的可执行的东西,c,c++(编译出来的可执行文件),python,……都可以作 为mapper 和 reducer mapper的输出为标准输出,如果有Partitioner,就给它,如果没有,它的输出将作为reducer的输入
4 Partitioner 为可选的项,二次排序,可以对结果进行分类打到结果文件里面,它的输入是mapper的标准输出,它的输出,将作为reducer的标准输入
5 reducer 同 mapper
6 输出文件夹,在远端文件不能重名
Hadoop Streaming
1 : hadoop-streaming.jar 的位置 : $HADOOP_HOME/contrib/streaming 内
官方上面关于hadoop-streaming 的介绍已经很详细了,而且也有了关于python的例子,我就不说了,这里总结下自己的经验
1 指定 mapper or reducer 的 task 官方上说要用 -jobconf 但是这个参数已经过时,不可以用了,官方说要用 -D, 注意这个-D是要作为最开始的配置出现的,因为是在maper 和 reducer 执行之前,就需要硬性指定好的,所以要出现在参数的最前面 ./bin/hadoop jar hadoop-0.19.2-streaming.jar -D ………-input …….. 类似这样,这样,即使你程序最后只指定了一个输出管道,但是还是会有你指定的task数量的结果文件,只不过多余的就是空的 实验以下 就知道了
2 关于二次排序,由于是用的streaming 所以,在可执行文件内,只能够处理逻辑,还有就是输出,当然我们也可以指定二次排序,但是由于是全部参数化,不是很灵活。比如:
10.2.3.40 1
11.22.33.33 1
www.renren.com 1
www.baidu.com 1
10.2.3.40 1
这样一个很规整的输入文件,需求是要把记录独立的ip和url的count 但是输出文件要分分割出来。
官方网站的例子,是指定 key 然后对key 指定 主-key 和 key 用来排序,而 主-key 用来二次排序,这样会输出你想要的东西, 但是对于上面最简单的需求,对于传递参数,我们如何做呢?
其实我们还是可以利用这一点,在我们mapper 里面,还是按照/t来分割key value 但是我们要给key指定一个主-key 用来给Partitioner 来实现二次排序,所以我们可以稍微处理下这个KEY,我们可以简单的判断出来ip 和 url 的区别,这样,我们就人为的加上一个主-key 我们在mapper里面,给每个key人为的加上一个”标签”,用来给partitioner做 二次排序用,比如我们的mapper的输出是这样
D&10.2.3.40 1
D&11.22.33.33 1
W&www.renren.com 1
W&www.baidu.com 1
D&10.2.3.40 1
然后通过传递命令参数

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner //指定要求二次排序
-jobconf map.output.key.field.separator=’&’ //这里如果不加两个单引号的话我的命令会死掉
-jobconf num.key.fields.for.partition=1 //这里指第一个 & 符号来分割,保证不会出错

这样我们就可以通过 partitioner 来实现二次排序了

在reducer里面,我们再把”标签”摘掉(不费吹灰之力)就可以做到悄无声息的完成二次排序了。

这篇关于python 实现Hadoop的partitioner和二次排序的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/871081

相关文章

Django开发时如何避免频繁发送短信验证码(python图文代码)

《Django开发时如何避免频繁发送短信验证码(python图文代码)》Django开发时,为防止频繁发送验证码,后端需用Redis限制请求频率,结合管道技术提升效率,通过生产者消费者模式解耦业务逻辑... 目录避免频繁发送 验证码1. www.chinasem.cn避免频繁发送 验证码逻辑分析2. 避免频繁

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

精选20个好玩又实用的的Python实战项目(有图文代码)

《精选20个好玩又实用的的Python实战项目(有图文代码)》文章介绍了20个实用Python项目,涵盖游戏开发、工具应用、图像处理、机器学习等,使用Tkinter、PIL、OpenCV、Kivy等库... 目录① 猜字游戏② 闹钟③ 骰子模拟器④ 二维码⑤ 语言检测⑥ 加密和解密⑦ URL缩短⑧ 音乐播放

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买