MapReducer程序调试技巧(搭建伪分布式集群)

2024-06-12 07:38

本文主要是介绍MapReducer程序调试技巧(搭建伪分布式集群),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写过程序分布式代码的人都知道,分布式的程序是比较难以调试的,但是也不是不可以调试,对于Hadoop分布式集群来说,在其上面运行的是mapreduce程序,因此,有时候写好了mapreduce程序之后,执行结果发现跟自己想要的结果不一样,但是有没有报错,此时就很难发现问题,查找问题的方法之一就是对程序进行调试,跟踪代码的执行,找出问题的所在。那么对于Hadoop的Mapreduce是如何进行调试的呢?

  毫无疑问当然是借助eclipse这个强大的工具。具体方式如下:

  说明:由于公司服务器上部署的是Cloudera CDH5.4.4,在网上找了很多资料,没有发现CDH5.4.4相关的eclipse插件,这可难倒我了。网上搜索很多人有跟我一样的困境。但是在Apache Hadoop版本下就是不存在这样的问题,对于这个问题,我暂时的解决方案是在本地搭建一个伪分布式的Apache Hadoop的集群。这个伪分布式集群就是用来给我的调试程序使用。当我们当程序调试好了,再直接导入到CDH版本的工程中即可。

  1、搭建Apache Hadoop的伪分布式集群,这个问题请参考如下:

    http://www.cnblogs.com/ljy2013/articles/4295341.html

  2、在Apache Hadoop的版本中如何编译插件?这个问题请参考如下:

    http://www.cnblogs.com/ljy2013/articles/4417933.html

  3、通过步骤2,我们已经可以创建Mapreduce程序了,下面实战一下。

    (1)打开eclipse集成开发环境的工具

    (2)安装步骤2方式,添加hadoop的安装目录。并添加Mapreduce的tools。

    (3)编辑MapReduce tools,输入本地部署的伪分布式的集群的主机名和端口。如下图所示:

      

    (4)此时eclipse中会出现DFS Location这样一个标识,这个表示的是Hdfs,他能加载你伪分布式集群上的hdfs的所有目录,你在这个上面操作就相当于在hdfs上面操作,前提是你拥有相应的权限。如下图所示:(你可以在这个上面很方便的删除测试文件)

      

    (5)编写Map/Reduce程序。在这里我们就用WordCount这个例子来调试一下。

      编写好了WordCount后,单击调试,进入调试界面。如下图所示:

      

     (6)当你一直采用上面的方式调试后,中间会让你选择添加源文件的目录,你添加一下就好了,然后姐可以进入我们的Map类中。如下图所示:

      

    此时,你就可以观察和跟踪在map类中的map方法的执行是否正确。找出问题的根源。

     (7)同样,当你在map中执行完后,接着就会进入reduce类中,这中间会敬礼一个shuffle过程。这个过程是理解MapReduce的关键所在,请参考:

            http://www.cnblogs.com/ljy2013/articles/4435657.html

        当你进入reduce类后,你可以看到如下图所示:

      

    此时,你可以跟踪你的代码是否是按照你的算法思路进行。查找问题的根源。

这篇关于MapReducer程序调试技巧(搭建伪分布式集群)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1053590

相关文章

qt5cored.dll报错怎么解决? 电脑qt5cored.dll文件丢失修复技巧

《qt5cored.dll报错怎么解决?电脑qt5cored.dll文件丢失修复技巧》在进行软件安装或运行程序时,有时会遇到由于找不到qt5core.dll,无法继续执行代码,这个问题可能是由于该文... 遇到qt5cored.dll文件错误时,可能会导致基于 Qt 开发的应用程序无法正常运行或启动。这种错

一文详解如何在idea中快速搭建一个Spring Boot项目

《一文详解如何在idea中快速搭建一个SpringBoot项目》IntelliJIDEA作为Java开发者的‌首选IDE‌,深度集成SpringBoot支持,可一键生成项目骨架、智能配置依赖,这篇文... 目录前言1、创建项目名称2、勾选需要的依赖3、在setting中检查maven4、编写数据源5、开启热

mtu设置多少网速最快? 路由器MTU设置最佳网速的技巧

《mtu设置多少网速最快?路由器MTU设置最佳网速的技巧》mtu设置多少网速最快?想要通过设置路由器mtu获得最佳网速,该怎么设置呢?下面我们就来看看路由器MTU设置最佳网速的技巧... 答:1500 MTU值指的是在网络传输中数据包的最大值,合理的设置MTU 值可以让网络更快!mtu设置可以优化不同的网

MySQL JSON 查询中的对象与数组技巧及查询示例

《MySQLJSON查询中的对象与数组技巧及查询示例》MySQL中JSON对象和JSON数组查询的详细介绍及带有WHERE条件的查询示例,本文给大家介绍的非常详细,mysqljson查询示例相关知... 目录jsON 对象查询1. JSON_CONTAINS2. JSON_EXTRACT3. JSON_TA

Spring @RequestMapping 注解及使用技巧详解

《Spring@RequestMapping注解及使用技巧详解》@RequestMapping是SpringMVC中定义请求映射规则的核心注解,用于将HTTP请求映射到Controller处理方法... 目录一、核心作用二、关键参数说明三、快捷组合注解四、动态路径参数(@PathVariable)五、匹配请

如何搭建并配置HTTPD文件服务及访问权限控制

《如何搭建并配置HTTPD文件服务及访问权限控制》:本文主要介绍如何搭建并配置HTTPD文件服务及访问权限控制的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、安装HTTPD服务二、HTTPD服务目录结构三、配置修改四、服务启动五、基于用户访问权限控制六、

pytest+allure环境搭建+自动化实践过程

《pytest+allure环境搭建+自动化实践过程》:本文主要介绍pytest+allure环境搭建+自动化实践过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录一、pytest下载安装1.1、安装pytest1.2、检测是否安装成功二、allure下载安装2.

使用vscode搭建pywebview集成vue项目实践

《使用vscode搭建pywebview集成vue项目实践》:本文主要介绍使用vscode搭建pywebview集成vue项目实践,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录环境准备项目源码下载项目说明调试与生成可执行文件核心代码说明总结本节我们使用pythonpywebv

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

Mac备忘录怎么导出/备份和云同步? Mac备忘录使用技巧

《Mac备忘录怎么导出/备份和云同步?Mac备忘录使用技巧》备忘录作为iOS里简单而又不可或缺的一个系统应用,上手容易,可以满足我们日常生活中各种记录的需求,今天我们就来看看Mac备忘录的导出、... 「备忘录」是 MAC 上的一款常用应用,它可以帮助我们捕捉灵感、记录待办事项或保存重要信息。为了便于在不同