cloudera CDH5.13.1 Hadoop2.6.0 测试运行wordcount大数据统计作业

本文主要是介绍cloudera CDH5.13.1 Hadoop2.6.0 测试运行wordcount大数据统计作业,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


cloudea 大数据实验平台安装好了,做点什么呢? 还是从hello world开始吧

1. 查看hadoop版本

root@cdh01:~# hadoop version


如果能如上正常显示,说明可以使用hadoop测试程序了

2. 查看有哪些测试程序可用
root@cdh01:~# hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-examples.jar
运行该程序会介绍有哪些hadoop测试程序可以使用

aggregatewordcount  计算输入文件中文字个数的基于聚合的MapReduce程序。
aggregatewordhist   生成输入文件中文字个数的统计图的基于聚合的MapReduce程序。
grep  计算输入文件中匹配正则表达式的文字个数的MapReduce程序。
join 合并排序的平均分割的数据集的作业。
multifilewc 计算几个文件的文字个数的作业。
pentomino 解决五格拼版问题的分块分层的MapReduce程序。
pi 使用蒙地卡罗法计算PI的MapReduce程序。
randomtextwriter 在一个节点上写10G随机文本的MapReduce程序。
randomwriter 在每个节点上写10G随机数据的MapReduce程序。
sleep 在每个Map和Reduce作业中休憩的程序。
sort 排序随机写入器生成的数据的MapReduce程序。
sudoku 一个九宫格游戏的解决方案。
wordcount 在输入文件中统计文字个数的统计器。


3.建立统计案例输入输出目录并上传文件
su hdfs  /* 转到gdfs用户身份操作,因为root对hadoop目录目前没有操作权限
hadoop fs -mkdir /input  /* 建立输入文件目录
hadoop fs -chmod 777 /input  /* 修改目录权限
hadoop fs -mkdir /output  /* 建立输出文件目录
hadoop fs -chmod 777 /input  /* 修改输出文件目录权限
exit           /*退出hdfs用户身份,返回到root用户
hadoop fs -put license.txt /input    /把需作单词统计的文件license.txt 上传到hadoop的/input目录
hadoop fs -ls /input  /查看是否上传成功




4.修改 /etc/hadoop/conf/mapred-site.xml 文件
按默认的配置运行统计作业时会卡在mapreduce.Job: Running job
在etc/hadoop/conf/mapred-site.xml中,如果配置
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
则使用yarn来进行计算,那么必须启动nodemanager,
如果不使用yarn,进行mapreduce.job.tracker配置也可以用,这样就不需要启动nodemanager:
<property>
        <name>mapreduce.job.tracker</name>
        <value>hdfs://cdh01:8001</value>
        <final>true</final>
<property> 

root@cdh01:~# vi /etc/hadoop/conf/mapred-site.xml
注释掉原来的配置,使用新输入的配置
修改后如下图


5. 执行统计任务

root@cdh01:~# hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-2.6.0-cdh5.13.1.jar wordcount /input /output/output1

( 也可以使用yarn调度程序:
yarn jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-2.6.0-cdh5.13.1.jar wordcount /input /output/output1 )

    该自带测试程序会对/input目录下的各文件作为输入,对单词进行统计,输出到/output/output1目录,其中output1目录会自行建立,必须是原来不存在的目录。
   如果正常执行,会在屏幕看到执行过程的输出:


6. 查看统计结果
root@cdh01:~# hadoop fs -ls /output/output1/*       /* 查看生成的文件名
root@cdh01:~# hadoop fs -cat /output/output1/part-r-00000    /* 显示生成的文件内容
root@cdh01:~# hadoop fs -get /output/output1/part-r-00000   /* 复制hdfs文件到本地文件


7.也可以通过 浏览器 50070端口查看hadoop hdfs目录及文件

这篇关于cloudera CDH5.13.1 Hadoop2.6.0 测试运行wordcount大数据统计作业的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/oLinBSoft/article/details/79402824
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/166986

相关文章

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

解决mysql插入数据锁等待超时报错:Lock wait timeout exceeded;try restarting transaction

《解决mysql插入数据锁等待超时报错:Lockwaittimeoutexceeded;tryrestartingtransaction》:本文主要介绍解决mysql插入数据锁等待超时报... 目录报错信息解决办法1、数据库中执行如下sql2、再到 INNODB_TRX 事务表中查看总结报错信息Lock

使用C#删除Excel表格中的重复行数据的代码详解

《使用C#删除Excel表格中的重复行数据的代码详解》重复行是指在Excel表格中完全相同的多行数据,删除这些重复行至关重要,因为它们不仅会干扰数据分析,还可能导致错误的决策和结论,所以本文给大家介绍... 目录简介使用工具C# 删除Excel工作表中的重复行语法工作原理实现代码C# 删除指定Excel单元

Linux lvm实例之如何创建一个专用于MySQL数据存储的LVM卷组

《Linuxlvm实例之如何创建一个专用于MySQL数据存储的LVM卷组》:本文主要介绍使用Linux创建一个专用于MySQL数据存储的LVM卷组的实例,具有很好的参考价值,希望对大家有所帮助,... 目录在Centos 7上创建卷China编程组并配置mysql数据目录1. 检查现有磁盘2. 创建物理卷3. 创