Flume java.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Put.setWriteToWAL

本文主要是介绍Flume java.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Put.setWriteToWAL,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

之前我们的架构方式采用的是spark+hbase+oozie解析存储及调用算法模式,最近突然出现一个需求,会有很多小文件上传,而且要求达到伪实时处理,也就是秒级别,spark很显然不适合解析了,哪怕是几十行的文件, spark也基本是分钟级别。

我想过2个方案来处理,一个是使用纯JAVA来解析文件,另外一个就是使用flume来解析并直接存储到HBASE。

下载最新版本Flume1.8,通过spoolDir方式,配置文件如下:

a1.sources =  r1
a1.sinks =  k1
a1.channels  = c1a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /data/flume/r1/data
a1.sources.r1.batchSize = 100
a1.sources.r1.channels = c1a1.channels.c1.type=file
a1.channels.c1.write-timeout=10
a1.channels.c1.keep-alive=10
a1.channels.c1.checkpointDir=/data/flume/c1/checkpoint
a1.channels.c1.dataDirs=/data/flume/c1/data
a1.channels.c1.maxFileSize= 268435456#a1.sinks.k1.type = logger
a1.sinks.k1.type = hbase
a1.sinks.k1.table = flume
a1.sinks.k1.columnFamily = cf
#a1.sinks.k1.serializer = org.apache.flume.sink.hbase.SimpleAsyncHbaseEventSerializer
a1.sinks.k1.serializer = org.apache.flume.sink.hbase.RegexHbaseEventSerializer
a1.sinks.k1.batchSize = 100
a1.sinks.k1.serializer.regex = (.*?)\\|\\|(.*?)\\|\\|(.*?)\\|\\|(.*?)\\|\\|(.*)
a1.sinks.k1.serializer.colNames = ROW_KEY,cnc_rdspmeter[0],cnc_rdsvmeter,cnc_statinfo[3],ext_toolno
a1.sinks.k1.serializer.regexIgnoreCase = true
a1.sinks.k1.serializer.depositHeaders = true
a1.sinks.hbaseSink.zookeeperQuorum = datanode01-ucloud.isesol.com:2181
a1.sinks.k1.channel = c1
然后启动flume:   
bin/flume-ng agent -n a1 -c conf -f conf/flume-conf.properties 

在消费文件的时候错误如下:

Exception in thread "SinkRunner-PollingRunner-DefaultSinkProcessor" java.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Put.setWriteToWAL(Z)Lorg/apache/hadoop/hbase/client/Put;at org.apache.flume.sink.hbase.HBaseSink$3.run(HBaseSink.java:380)at org.apache.flume.sink.hbase.HBaseSink$3.run(HBaseSink.java:375)at org.apache.flume.auth.SimpleAuthenticator.execute(SimpleAuthenticator.java:50)at org.apache.flume.sink.hbase.HBaseSink.putEventsAndCommit(HBaseSink.java:375)at org.apache.flume.sink.hbase.HBaseSink.process(HBaseSink.java:345)at org.apache.flume.sink.DefaultSinkProcessor.process(DefaultSinkProcessor.java:67)at org.apache.flume.SinkRunner$PollingRunner.run(SinkRunner.java:145)at java.lang.Thread.run(Thread.java:748)
^CAttempting to shutdown background worker.

setWriteWal在之前版本存在,但是1.0之后应该就没有了,我不知道为什么Flume的开发者在最新的1.8仍然在使用这个方法,很无奈,查询了一下网上,基本没什么解决方案,于是打开源代码,看看究竟怎么回事。

因为我使用的是type是hbase,因此找到hbaseSink.java, 通过find查找哪里有setWriteWAL, 发现有3个地方存在,

      public Void run() throws Exception {for (Row r : actions) {if (r instanceof Put) {// ((Put) r).setWriteToWAL(enableWal);}// Newer versions of HBase - Increment implements Row.if (r instanceof Increment) {//  ((Increment) r).setWriteToWAL(enableWal);}}table.batch(actions);return null;}
      public Void run() throws Exception {List<Increment> processedIncrements;if (batchIncrements) {processedIncrements = coalesceIncrements(incs);} else {processedIncrements = incs;}// Only used for unit testing.if (debugIncrCallback != null) {debugIncrCallback.onAfterCoalesce(processedIncrements);}for (final Increment i : processedIncrements) {//  i.setWriteToWAL(enableWal);table.increment(i);}return null;}});

上面3个被我注视掉的地方,就是setWriteWAL, 这个东西实际无所谓,因此我很暴力的直接注释,然后再重新打一个包进行替换,官方名字叫:flume-ng-hbase-sink-1.8.0.jar。重新启动Flume,查看结果:

hbase(main):001:0> scan 'flume'
ROW                                        COLUMN+CELL                                                                                                                 1529992556110-SzjikLv1LH-0                column=cf:ROW_KEY, timestamp=1529992556407, value=cnc_exeprgname:418                                                        1529992556110-SzjikLv1LH-0                column=cf:cnc_rdspmeter[0], timestamp=1529992556407, value=cnc_rdspmeter[0]:0                                               1529992556110-SzjikLv1LH-0                column=cf:cnc_rdsvmeter, timestamp=1529992556407, value=cnc_rdsvmeter:6,7,92,0                                              1529992556110-SzjikLv1LH-0                column=cf:cnc_statinfo[3], timestamp=1529992556407, value=cnc_statinfo[3]:3                                                 1529992556110-SzjikLv1LH-0                column=cf:ext_toolno, timestamp=1529992556407, value=ext_toolno:30                                                          1529992556125-SzjikLv1LH-1                column=cf:ROW_KEY, timestamp=1529992556407, value=cnc_exeprgname:418                                                        1529992556125-SzjikLv1LH-1                column=cf:cnc_rdspmeter[0], timestamp=1529992556407, value=cnc_rdspmeter[0]:0                                               1529992556125-SzjikLv1LH-1                column=cf:cnc_rdsvmeter, timestamp=1529992556407, value=cnc_rdsvmeter:6,7,93,0                                              1529992556125-SzjikLv1LH-1                column=cf:cnc_statinfo[3], timestamp=1529992556407, value=cnc_statinfo[3]:3                                                 1529992556125-SzjikLv1LH-1                column=cf:ext_toolno, timestamp=1529992556407, value=ext_toolno:30                                                          1529992556126-SzjikLv1LH-2                column=cf:ROW_KEY, timestamp=1529992556407, value=cnc_exeprgname:418                                                        1529992556126-SzjikLv1LH-2                column=cf:cnc_rdspmeter[0], timestamp=1529992556407, value=cnc_rdspmeter[0]:0                                               1529992556126-SzjikLv1LH-2                column=cf:cnc_rdsvmeter, timestamp=1529992556407, value=cnc_rdsvmeter:5,10,93,0                                             1529992556126-SzjikLv1LH-2                column=cf:cnc_statinfo[3], timestamp=1529992556407, value=cnc_statinfo[3]:3                                                 1529992556126-SzjikLv1LH-2                column=cf:ext_toolno, timestamp=1529992556407, value=ext_toolno:30                                                          1529992556127-SzjikLv1LH-3                column=cf:ROW_KEY, timestamp=1529992556407, value=cnc_exeprgname:418                                                        1529992556127-SzjikLv1LH-3                column=cf:cnc_rdspmeter[0], timestamp=1529992556407, value=cnc_rdspmeter[0]:0                                               1529992556127-SzjikLv1LH-3                column=cf:cnc_rdsvmeter, timestamp=1529992556407, value=cnc_rdsvmeter:7,8,93,0                                              1529992556127-SzjikLv1LH-3                column=cf:cnc_statinfo[3], timestamp=1529992556407, value=cnc_statinfo[3]:3                                                 1529992556127-SzjikLv1LH-3                column=cf:ext_toolno, timestamp=1529992556407, value=ext_toolno:30                                                          1529992556128-SzjikLv1LH-4                column=cf:ROW_KEY, timestamp=1529992556407, value=cnc_exeprgname:418                                                        1529992556128-SzjikLv1LH-4                column=cf:cnc_rdspmeter[0], timestamp=1529992556407, value=cnc_rdspmeter[0]:0                                               1529992556128-SzjikLv1LH-4                column=cf:cnc_rdsvmeter, timestamp=1529992556407, value=cnc_r
世界终于清静了。 这个ROWKEY的设置不符合我的需求,还需要修改源代码。


这篇关于Flume java.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Put.setWriteToWAL的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/909603

相关文章

Spring事务传播机制最佳实践

《Spring事务传播机制最佳实践》Spring的事务传播机制为我们提供了优雅的解决方案,本文将带您深入理解这一机制,掌握不同场景下的最佳实践,感兴趣的朋友一起看看吧... 目录1. 什么是事务传播行为2. Spring支持的七种事务传播行为2.1 REQUIRED(默认)2.2 SUPPORTS2

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

java中新生代和老生代的关系说明

《java中新生代和老生代的关系说明》:本文主要介绍java中新生代和老生代的关系说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、内存区域划分新生代老年代二、对象生命周期与晋升流程三、新生代与老年代的协作机制1. 跨代引用处理2. 动态年龄判定3. 空间分

Java设计模式---迭代器模式(Iterator)解读

《Java设计模式---迭代器模式(Iterator)解读》:本文主要介绍Java设计模式---迭代器模式(Iterator),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录1、迭代器(Iterator)1.1、结构1.2、常用方法1.3、本质1、解耦集合与遍历逻辑2、统一

Java内存分配与JVM参数详解(推荐)

《Java内存分配与JVM参数详解(推荐)》本文详解JVM内存结构与参数调整,涵盖堆分代、元空间、GC选择及优化策略,帮助开发者提升性能、避免内存泄漏,本文给大家介绍Java内存分配与JVM参数详解,... 目录引言JVM内存结构JVM参数概述堆内存分配年轻代与老年代调整堆内存大小调整年轻代与老年代比例元空

深度解析Java DTO(最新推荐)

《深度解析JavaDTO(最新推荐)》DTO(DataTransferObject)是一种用于在不同层(如Controller层、Service层)之间传输数据的对象设计模式,其核心目的是封装数据,... 目录一、什么是DTO?DTO的核心特点:二、为什么需要DTO?(对比Entity)三、实际应用场景解析

Java 线程安全与 volatile与单例模式问题及解决方案

《Java线程安全与volatile与单例模式问题及解决方案》文章主要讲解线程安全问题的五个成因(调度随机、变量修改、非原子操作、内存可见性、指令重排序)及解决方案,强调使用volatile关键字... 目录什么是线程安全线程安全问题的产生与解决方案线程的调度是随机的多个线程对同一个变量进行修改线程的修改操

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

深度解析Java项目中包和包之间的联系

《深度解析Java项目中包和包之间的联系》文章浏览阅读850次,点赞13次,收藏8次。本文详细介绍了Java分层架构中的几个关键包:DTO、Controller、Service和Mapper。_jav... 目录前言一、各大包1.DTO1.1、DTO的核心用途1.2. DTO与实体类(Entity)的区别1