cloudera CDH5.13.1 Hadoop2.6.0 测试运行wordcount大数据统计作业

本文主要是介绍cloudera CDH5.13.1 Hadoop2.6.0 测试运行wordcount大数据统计作业,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


cloudea 大数据实验平台安装好了,做点什么呢? 还是从hello world开始吧

1. 查看hadoop版本

root@cdh01:~# hadoop version


如果能如上正常显示,说明可以使用hadoop测试程序了

2. 查看有哪些测试程序可用
root@cdh01:~# hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-examples.jar
运行该程序会介绍有哪些hadoop测试程序可以使用

aggregatewordcount  计算输入文件中文字个数的基于聚合的MapReduce程序。
aggregatewordhist   生成输入文件中文字个数的统计图的基于聚合的MapReduce程序。
grep  计算输入文件中匹配正则表达式的文字个数的MapReduce程序。
join 合并排序的平均分割的数据集的作业。
multifilewc 计算几个文件的文字个数的作业。
pentomino 解决五格拼版问题的分块分层的MapReduce程序。
pi 使用蒙地卡罗法计算PI的MapReduce程序。
randomtextwriter 在一个节点上写10G随机文本的MapReduce程序。
randomwriter 在每个节点上写10G随机数据的MapReduce程序。
sleep 在每个Map和Reduce作业中休憩的程序。
sort 排序随机写入器生成的数据的MapReduce程序。
sudoku 一个九宫格游戏的解决方案。
wordcount 在输入文件中统计文字个数的统计器。


3.建立统计案例输入输出目录并上传文件
su hdfs  /* 转到gdfs用户身份操作,因为root对hadoop目录目前没有操作权限
hadoop fs -mkdir /input  /* 建立输入文件目录
hadoop fs -chmod 777 /input  /* 修改目录权限
hadoop fs -mkdir /output  /* 建立输出文件目录
hadoop fs -chmod 777 /input  /* 修改输出文件目录权限
exit           /*退出hdfs用户身份,返回到root用户
hadoop fs -put license.txt /input    /把需作单词统计的文件license.txt 上传到hadoop的/input目录
hadoop fs -ls /input  /查看是否上传成功




4.修改 /etc/hadoop/conf/mapred-site.xml 文件
按默认的配置运行统计作业时会卡在mapreduce.Job: Running job
在etc/hadoop/conf/mapred-site.xml中,如果配置
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
则使用yarn来进行计算,那么必须启动nodemanager,
如果不使用yarn,进行mapreduce.job.tracker配置也可以用,这样就不需要启动nodemanager:
<property>
        <name>mapreduce.job.tracker</name>
        <value>hdfs://cdh01:8001</value>
        <final>true</final>
<property> 

root@cdh01:~# vi /etc/hadoop/conf/mapred-site.xml
注释掉原来的配置,使用新输入的配置
修改后如下图


5. 执行统计任务

root@cdh01:~# hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-2.6.0-cdh5.13.1.jar wordcount /input /output/output1

( 也可以使用yarn调度程序:
yarn jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-2.6.0-cdh5.13.1.jar wordcount /input /output/output1 )

    该自带测试程序会对/input目录下的各文件作为输入,对单词进行统计,输出到/output/output1目录,其中output1目录会自行建立,必须是原来不存在的目录。
   如果正常执行,会在屏幕看到执行过程的输出:


6. 查看统计结果
root@cdh01:~# hadoop fs -ls /output/output1/*       /* 查看生成的文件名
root@cdh01:~# hadoop fs -cat /output/output1/part-r-00000    /* 显示生成的文件内容
root@cdh01:~# hadoop fs -get /output/output1/part-r-00000   /* 复制hdfs文件到本地文件


7.也可以通过 浏览器 50070端口查看hadoop hdfs目录及文件

这篇关于cloudera CDH5.13.1 Hadoop2.6.0 测试运行wordcount大数据统计作业的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/166986

相关文章

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

C#解析JSON数据全攻略指南

《C#解析JSON数据全攻略指南》这篇文章主要为大家详细介绍了使用C#解析JSON数据全攻略指南,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、为什么jsON是C#开发必修课?二、四步搞定网络JSON数据1. 获取数据 - HttpClient最佳实践2. 动态解析 - 快速

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核