Hadoop 1.x的Shuffle源码分析之2

2024-06-11 09:58
文章标签 分析 源码 hadoop shuffle

本文主要是介绍Hadoop 1.x的Shuffle源码分析之2,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ReduceTask类的内嵌类ReduceCopier的内嵌类MapOutputCopier的函数copyOutput是Shuffle里最重要的一环,它以http的方式,从远程主机取数据:创建临时文件名,然后用http读数据,再保存到内存文件系统或者本地文件系统。它读取远程文件的函数是getMapOutput。


getMapOutput函数如下:

private MapOutput getMapOutput(MapOutputLocation mapOutputLoc, Path filename, int reduce)throws IOException, InterruptedException {//建立http链接URL url = mapOutputLoc.getOutputLocation();HttpURLConnection connection = (HttpURLConnection)url.openConnection();//创建输入流InputStream input = setupSecureConnection(mapOutputLoc, connection);//检查连接姿势是否正确int rc = connection.getResponseCode();if (rc != HttpURLConnection.HTTP_OK) {throw new IOException("Got invalid response code " + rc + " from " + url +": " + connection.getResponseMessage());}//从http链接获取mapIdTaskAttemptID mapId = null;try {mapId =TaskAttemptID.forName(connection.getHeaderField(FROM_MAP_TASK));} catch (IllegalArgumentException ia) {LOG.warn("Invalid map id ", ia);return null;}
</pre><pre code_snippet_id="665348" snippet_file_name="blog_20150513_3_7696491" name="code" class="java">        //检查mapId是否一致TaskAttemptID expectedMapId = mapOutputLoc.getTaskAttemptId();if (!mapId.equals(expectedMapId)) {LOG.warn("data from wrong map:" + mapId +" arrived to reduce task " + reduce +", where as expected map output should be from " + expectedMapId);return null;}
        //如果数据有压缩,要获取压缩长度long decompressedLength = Long.parseLong(connection.getHeaderField(RAW_MAP_OUTPUT_LENGTH));  long compressedLength = Long.parseLong(connection.getHeaderField(MAP_OUTPUT_LENGTH));if (compressedLength < 0 || decompressedLength < 0) {LOG.warn(getName() + " invalid lengths in map output header: id: " +mapId + " compressed len: " + compressedLength +", decompressed len: " + decompressedLength);return null;}
        int forReduce =(int)Integer.parseInt(connection.getHeaderField(FOR_REDUCE_TASK));if (forReduce != reduce) {LOG.warn("data for the wrong reduce: " + forReduce +" with compressed len: " + compressedLength +", decompressed len: " + decompressedLength +" arrived to reduce task " + reduce);return null;}if (LOG.isDebugEnabled()) {LOG.debug("header: " + mapId + ", compressed len: " + compressedLength +", decompressed len: " + decompressedLength);}//We will put a file in memory if it meets certain criteria://1. The size of the (decompressed) file should be less than 25% of //    the total inmem fs//2. There is space available in the inmem fs// Check if this map-output can be saved in-memoryboolean shuffleInMemory = ramManager.canFitInMemory(decompressedLength); // ShuffleMapOutput mapOutput = null;if (shuffleInMemory) {if (LOG.isDebugEnabled()) {LOG.debug("Shuffling " + decompressedLength + " bytes (" + compressedLength + " raw bytes) " + "into RAM from " + mapOutputLoc.getTaskAttemptId());}//在内存做shuffle处理mapOutput = shuffleInMemory(mapOutputLoc, connection, input,(int)decompressedLength,(int)compressedLength);} else {if (LOG.isDebugEnabled()) {LOG.debug("Shuffling " + decompressedLength + " bytes (" + compressedLength + " raw bytes) " + "into Local-FS from " + mapOutputLoc.getTaskAttemptId());}//在本地做shuffle处理mapOutput = shuffleToDisk(mapOutputLoc, input, filename, compressedLength);}mapOutput.decompressedSize = decompressedLength;    return mapOutput;}


这篇关于Hadoop 1.x的Shuffle源码分析之2的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1050844

相关文章

Nginx分布式部署流程分析

《Nginx分布式部署流程分析》文章介绍Nginx在分布式部署中的反向代理和负载均衡作用,用于分发请求、减轻服务器压力及解决session共享问题,涵盖配置方法、策略及Java项目应用,并提及分布式事... 目录分布式部署NginxJava中的代理代理分为正向代理和反向代理正向代理反向代理Nginx应用场景

Redis中的有序集合zset从使用到原理分析

《Redis中的有序集合zset从使用到原理分析》Redis有序集合(zset)是字符串与分值的有序映射,通过跳跃表和哈希表结合实现高效有序性管理,适用于排行榜、延迟队列等场景,其时间复杂度低,内存占... 目录开篇:排行榜背后的秘密一、zset的基本使用1.1 常用命令1.2 Java客户端示例二、zse

Redis中的AOF原理及分析

《Redis中的AOF原理及分析》Redis的AOF通过记录所有写操作命令实现持久化,支持always/everysec/no三种同步策略,重写机制优化文件体积,与RDB结合可平衡数据安全与恢复效率... 目录开篇:从日记本到AOF一、AOF的基本执行流程1. 命令执行与记录2. AOF重写机制二、AOF的

MyBatis Plus大数据量查询慢原因分析及解决

《MyBatisPlus大数据量查询慢原因分析及解决》大数据量查询慢常因全表扫描、分页不当、索引缺失、内存占用高及ORM开销,优化措施包括分页查询、流式读取、SQL优化、批处理、多数据源、结果集二次... 目录大数据量查询慢的常见原因优化方案高级方案配置调优监控与诊断总结大数据量查询慢的常见原因MyBAT

分析 Java Stream 的 peek使用实践与副作用处理方案

《分析JavaStream的peek使用实践与副作用处理方案》StreamAPI的peek操作是中间操作,用于观察元素但不终止流,其副作用风险包括线程安全、顺序混乱及性能问题,合理使用场景有限... 目录一、peek 操作的本质:有状态的中间操作二、副作用的定义与风险场景1. 并行流下的线程安全问题2. 顺

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

《MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决》MyBatis默认开启一级缓存,同一事务中循环调用查询方法时会重复使用缓存数据,导致获取的序列主键值均为1,... 目录问题原因解决办法如果是存储过程总结问题myBATis有如下代码获取序列作为主键IdMappe

Java中最全最基础的IO流概述和简介案例分析

《Java中最全最基础的IO流概述和简介案例分析》JavaIO流用于程序与外部设备的数据交互,分为字节流(InputStream/OutputStream)和字符流(Reader/Writer),处理... 目录IO流简介IO是什么应用场景IO流的分类流的超类类型字节文件流应用简介核心API文件输出流应用文

java 恺撒加密/解密实现原理(附带源码)

《java恺撒加密/解密实现原理(附带源码)》本文介绍Java实现恺撒加密与解密,通过固定位移量对字母进行循环替换,保留大小写及非字母字符,由于其实现简单、易于理解,恺撒加密常被用作学习加密算法的入... 目录Java 恺撒加密/解密实现1. 项目背景与介绍2. 相关知识2.1 恺撒加密算法原理2.2 Ja

Nginx屏蔽服务器名称与版本信息方式(源码级修改)

《Nginx屏蔽服务器名称与版本信息方式(源码级修改)》本文详解如何通过源码修改Nginx1.25.4,移除Server响应头中的服务类型和版本信息,以增强安全性,需重新配置、编译、安装,升级时需重复... 目录一、背景与目的二、适用版本三、操作步骤修改源码文件四、后续操作提示五、注意事项六、总结一、背景与

Android实现图片浏览功能的示例详解(附带源码)

《Android实现图片浏览功能的示例详解(附带源码)》在许多应用中,都需要展示图片并支持用户进行浏览,本文主要为大家介绍了如何通过Android实现图片浏览功能,感兴趣的小伙伴可以跟随小编一起学习一... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码