详解 WordCount 运行后历史日志记录

2024-06-07 15:58

本文主要是介绍详解 WordCount 运行后历史日志记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在 《Hadoop-2.5.0-cdh5.3.2 HA 安装》 一文中我们已经详细讲述了如何搭建 HA 模式,同时最后还演示了运行其自带的 wordcount 程序,详情请参考 运行 Hadoop自带 wordcount 程序 。先简要回顾下:

  • 一 Hadoop 日志基本概念
    • 1 运行 wordcount 程序
    • 2 控制台输出结果
  • 二 Hadoop History 服务器网页详解
    • 1 ResourceManager Web 界面
    • 2 application 界面
    • 3 Job Overview 界面
    • 4 小结
  • 三 Hadoop 任务运行日志 Container 日志 收集过程详解
  • 四 Hadoop 作业日志收集过程详解
    • 1 步骤一启动作业的 ApplicationMaster 并写日志至 HDFS
    • 2 步骤二HDFS 内转移历史运行日志
    • 3 步骤三 周期转移 done_intermediate 中的日志文件到 done 目录
    • 4 概念拓展


一. Hadoop 日志基本概念

1. Hadoop 系统服务日志

2. Mapreduce 程序日志

  • 作业运行日志
  • 任务运行日志 (Container 日志)

其中需要我们关注容易混淆的概念:

  • Mapreduce 程序日志 的查看是需要开启 历史日志服务器 后才能查看到
  • 其中 日志聚集 功能是针对 任务运行日志 (Container 日志) 而言的!

更多关于Hadoop 日志原理以及相应配置请参考:http://blog.csdn.net/u011414200/article/details/50338073


1.1 运行 wordcount 程序

  • 已经启动了必需的各项进程:namenode、datanode、resourcemanager、nodemanager、JobHistoryServer 等

  • 确保当前 hdfs 不处于安全模式

hdfs dfsadmin -safemode leave
  • 确保已经在 HDFS 中创建了相关目录 /data/wordcount/output ,以下 /tmp 及其以下目录是启动 JobHistoryServer 后系统自动生成的

  • 上传了测试数据集 slaves

    这里写图片描述

hadoop fs -put /usr/local/cluster/hadoop/etc/hadoop/slaves /data/wordcount/
  • 进入程序所在目录,并运行程序
cd /usr/local/cluster/hadoop/share/hadoop/mapreduce 
hadoop jar hadoop-mapreduce-examples-2.5.0-cdh5.3.2.jar wordcount /data/wordcount /output/wordcount

1.2 控制台输出结果

15/12/22 00:30:36 INFO input.FileInputFormat: Total input paths to process : 1
15/12/22 00:30:37 INFO mapreduce.JobSubmitter: number of splits:1
15/12/22 00:30:37 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1450714294593_0001
15/12/22 00:30:37 INFO impl.YarnClientImpl: Submitted application application_1450714294593_0001
15/12/22 00:30:37 INFO mapreduce.Job: The url to track the job: http://master5:8088/proxy/application_1450714294593_0001/
15/12/22 00:30:37 INFO mapreduce.Job: Running job: job_1450714294593_0001
15/12/22 00:30:43 INFO mapreduce.Job: Job job_1450714294593_0001 running in uber mode : false
15/12/22 00:30:43 INFO mapreduce.Job:  map 0% reduce 0%
15/12/22 00:30:49 INFO mapreduce.Job:  map 100% reduce 0%
15/12/22 00:31:04 INFO mapreduce.Job:  map 100% reduce 100%
15/12/22 00:31:05 INFO mapreduce.Job: Job job_1450714294593_0001 completed successfully
15/12/22 00:31:05 INFO mapreduce.Job: Counters: 49File System CountersFILE: Number of bytes read=48FILE: Number of bytes written=212385FILE: Number of read operations=0FILE: Number of large read operations=0FILE: Number of write operations=0HDFS: Number of bytes read=125HDFS: Number of bytes written=30HDFS: Number of read operations=6

这篇关于详解 WordCount 运行后历史日志记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1039627

相关文章

Linux线程同步/互斥过程详解

《Linux线程同步/互斥过程详解》文章讲解多线程并发访问导致竞态条件,需通过互斥锁、原子操作和条件变量实现线程安全与同步,分析死锁条件及避免方法,并介绍RAII封装技术提升资源管理效率... 目录01. 资源共享问题1.1 多线程并发访问1.2 临界区与临界资源1.3 锁的引入02. 多线程案例2.1 为

Spring Boot集成/输出/日志级别控制/持久化开发实践

《SpringBoot集成/输出/日志级别控制/持久化开发实践》SpringBoot默认集成Logback,支持灵活日志级别配置(INFO/DEBUG等),输出包含时间戳、级别、类名等信息,并可通过... 目录一、日志概述1.1、Spring Boot日志简介1.2、日志框架与默认配置1.3、日志的核心作用

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

idea的终端(Terminal)cmd的命令换成linux的命令详解

《idea的终端(Terminal)cmd的命令换成linux的命令详解》本文介绍IDEA配置Git的步骤:安装Git、修改终端设置并重启IDEA,强调顺序,作为个人经验分享,希望提供参考并支持脚本之... 目录一编程、设置前二、前置条件三、android设置四、设置后总结一、php设置前二、前置条件

java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)

《java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)》:本文主要介绍java中pdf模版填充表单踩坑的相关资料,OpenPDF、iText、PDFBox是三... 目录准备Pdf模版方法1:itextpdf7填充表单(1)加入依赖(2)代码(3)遇到的问题方法2:pd

python中列表应用和扩展性实用详解

《python中列表应用和扩展性实用详解》文章介绍了Python列表的核心特性:有序数据集合,用[]定义,元素类型可不同,支持迭代、循环、切片,可执行增删改查、排序、推导式及嵌套操作,是常用的数据处理... 目录1、列表定义2、格式3、列表是可迭代对象4、列表的常见操作总结1、列表定义是处理一组有序项目的

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

C++11范围for初始化列表auto decltype详解

《C++11范围for初始化列表autodecltype详解》C++11引入auto类型推导、decltype类型推断、统一列表初始化、范围for循环及智能指针,提升代码简洁性、类型安全与资源管理效... 目录C++11新特性1. 自动类型推导auto1.1 基本语法2. decltype3. 列表初始化3

深度解析Nginx日志分析与499状态码问题解决

《深度解析Nginx日志分析与499状态码问题解决》在Web服务器运维和性能优化过程中,Nginx日志是排查问题的重要依据,本文将围绕Nginx日志分析、499状态码的成因、排查方法及解决方案展开讨论... 目录前言1. Nginx日志基础1.1 Nginx日志存放位置1.2 Nginx日志格式2. 499