Map Reduce shuffle 及Hadoop工作简记 --- 写给初学Hadoop和MapReduce的人

2024-05-28 04:32

本文主要是介绍Map Reduce shuffle 及Hadoop工作简记 --- 写给初学Hadoop和MapReduce的人,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MapReduce学习笔记

1Map

输入:<key,value> key是文本的每一行的偏移量,0开始,以字节为单位

输出:<key,value>

map函数(必须是这个名字)的参数,(输入key,输入valueContext


代码框架:

//前两个参数 输入类型后两个参数输出类型

publicstaticclassMapClass

extendsMapper<Object, Text, Text, IntWritable>{

publicvoidmap(Object key, Text value, Context context)throwsIOException,InterruptedException{

context.write(desirekey,desirevalue);//Map的输出<key,value>

}

}


2Combine

根据情况,可以没有

3Reduce

Hadoop负责将Map产生的<key,value>处理成{具有相同keyvalue集合},传给Reducer

输入:<key,(listof values)>

输出:<key,value>

reduce函数(必须是这个名字)的参数,(输入key,输入具有相同keyvalue集合,Context)其中,输入的key,value必须类型与map的输出<key,value>相同,这一点适用于mapreduce类及函数


代码框架:

//前两个参数 输入类型后两个参数输出类型

publicstaticclassReduceClass

extendsReducer<Text,IntWritable,Text,Writable>{

publicvoidreduce(Text key, Iterable<valueType>values, Context context)throwsIOException, InterruptedException{

context.write(desirekey,desirevalue);

//Reduce的输出<key,value>

}

}


4Context

context.write()基本就是输出的意思,在map就是map输出,在reduce就是reduce的输出。

context.write()是会直接在每次输出的时候换行的,如果需要在中间加上格式性的比如空格,自己在输入参数里处理newText(str1+””);等等


5main函数的配置

a.定义Configurationconf = newConfiguration();

b.String[]otherArgs = newGenericOptionsParser(conf,args).getRemainingArgs();

otherArgs[]数组里存的分别是输入路径和输出路径,并判断是不是存在路径

c.run

Job job = newJob(conf, String类型的名字);

job.setJarByClass()

job.setMapperClass

job.setCombinerClass //根据情况,可以没有

job.setReducerClass

job.setPartitionerClass //根据情况,可以没有


d.设置输出输入路径并正常退出

FileInputFormat.addInputPath

FileOutputFormat.setOutputPath


System.exit(job.waitForCompletion(true)? 0 : 1);

6Shuffle

Map端的shuffle:map的输出内存缓冲区是环形结构(见下一行代码)

finalint kvnext = (kvindex + 1) % kvoffsets.length;

当内存缓冲区满了,就把缓冲区内容分割(spill)到磁盘,此时,若map生成结果的速度快于写出速度,缓冲区会满,那么map需要等待至分割结束。写出时调用sortAndSpill并创建spill文件,按照key值进行排序,(若有combine先进性combine),然后依照划分顺序将结果写入Spill文件。

每个Map结束之后,在MapTaskTracker还会将众多的spill文件中的数据按照划分(Partitioner)重新划分,以便于Reduce处理。

Reduce端的shuffle:JobTracker能够记录map输出与TaskTracker的映射关系。reduce定期向JobTracker获取map输出并复制到本地而不会等待全部的map结束。reduce在复制的同时把从各个mapTaskTracker复制的输出文件整合,维持数据原来次序

这篇关于Map Reduce shuffle 及Hadoop工作简记 --- 写给初学Hadoop和MapReduce的人的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1009543

相关文章

SpringBoot整合Flowable实现工作流的详细流程

《SpringBoot整合Flowable实现工作流的详细流程》Flowable是一个使用Java编写的轻量级业务流程引擎,Flowable流程引擎可用于部署BPMN2.0流程定义,创建这些流程定义的... 目录1、流程引擎介绍2、创建项目3、画流程图4、开发接口4.1 Java 类梳理4.2 查看流程图4

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》:本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件(Component)1.2 规则(Rule)1.3 上下文(Conte

Java中Map.Entry()含义及方法使用代码

《Java中Map.Entry()含义及方法使用代码》:本文主要介绍Java中Map.Entry()含义及方法使用的相关资料,Map.Entry是Java中Map的静态内部接口,用于表示键值对,其... 目录前言 Map.Entry作用核心方法常见使用场景1. 遍历 Map 的所有键值对2. 直接修改 Ma

Java中JSON格式反序列化为Map且保证存取顺序一致的问题

《Java中JSON格式反序列化为Map且保证存取顺序一致的问题》:本文主要介绍Java中JSON格式反序列化为Map且保证存取顺序一致的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未... 目录背景问题解决方法总结背景做项目涉及两个微服务之间传数据时,需要提供方将Map类型的数据序列化为co

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

基于Python开发一个有趣的工作时长计算器

《基于Python开发一个有趣的工作时长计算器》随着远程办公和弹性工作制的兴起,个人及团队对于工作时长的准确统计需求日益增长,本文将使用Python和PyQt5打造一个工作时长计算器,感兴趣的小伙伴可... 目录概述功能介绍界面展示php软件使用步骤说明代码详解1.窗口初始化与布局2.工作时长计算核心逻辑3

RabbitMQ工作模式中的RPC通信模式详解

《RabbitMQ工作模式中的RPC通信模式详解》在RabbitMQ中,RPC模式通过消息队列实现远程调用功能,这篇文章给大家介绍RabbitMQ工作模式之RPC通信模式,感兴趣的朋友一起看看吧... 目录RPC通信模式概述工作流程代码案例引入依赖常量类编写客户端代码编写服务端代码RPC通信模式概述在R

Java Stream.reduce()方法操作实际案例讲解

《JavaStream.reduce()方法操作实际案例讲解》reduce是JavaStreamAPI中的一个核心操作,用于将流中的元素组合起来产生单个结果,:本文主要介绍JavaStream.... 目录一、reduce的基本概念1. 什么是reduce操作2. reduce方法的三种形式二、reduce

Java使用Stream流的Lambda语法进行List转Map的操作方式

《Java使用Stream流的Lambda语法进行List转Map的操作方式》:本文主要介绍Java使用Stream流的Lambda语法进行List转Map的操作方式,具有很好的参考价值,希望对大... 目录背景Stream流的Lambda语法应用实例1、定义要操作的UserDto2、ListChina编程转成M