读者来信 | 如果你家HBase集群Region太多请点进来看看,这个问题你可能会遇到

本文主要是介绍读者来信 | 如果你家HBase集群Region太多请点进来看看,这个问题你可能会遇到,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:《读者来信》是HBase老店开设的一个问答专栏,旨在能为更多的小伙伴解决工作中常遇到的HBase相关的问题。老店会尽力帮大家解决这些问题或帮你发出求救贴,老店希望这会是一个互帮互助的小平台。有问题请直接在老店后台留言,有好的解决方案也请不要吝啬,诚挚欢迎大家能在留言区积极探讨解决方案,大胆发表自己的看法,也许你今天帮别人解决的问题,就是你明天可能遇到的答案。

来信人:刘*刚

小猿提问

在重启HBase集群的过程中,RS节点全部启动成功了,但是HMaser一直启动不起来,错误日志如下:

unexpected error, closing socket connection and attempting reconnect
java.io.IOException: Packet len4745468 is out of range!at org.apache.zookeeper.ClientCnxnSocket.readLength(ClientCnxnSocket.java:112)at org.apache.zookeeper.ClientCnxnSocketNIO.doIO(ClientCnxnSocketNIO.java:79)at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:366)at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1081)
2020-04-02 22:31:08,673 ERROR [hadoop01:16000.activeMasterManager] zookeeper.RecoverableZooKeeper: ZooKeeper getChildren failed after 4 attempts
2020-04-02 22:31:08,674 FATAL [hadoop01:16000.activeMasterManager] master.HMaster: Failed to become active master
org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /hbase/region-in-transitionat org.apache.zookeeper.KeeperException.create(KeeperException.java:99)at org.apache.zookeeper.KeeperException.create(KeeperException.java:51)at org.apache.zookeeper.ZooKeeper.getChildren(ZooKeeper.java:1472)at org.apache.hadoop.hbase.zookeeper.RecoverableZooKeeper.getChildren(RecoverableZooKeeper.java:295)at org.apache.hadoop.hbase.zookeeper.ZKUtil.listChildrenNoWatch(ZKUtil.java:513)at org.apache.hadoop.hbase.master.AssignmentManager.processDeadServersAndRegionsInTransition(AssignmentManager.java:519)at org.apache.hadoop.hbase.master.AssignmentManager.joinCluster(AssignmentManager.java:494)at org.apache.hadoop.hbase.master.HMaster.finishActiveMasterInitialization(HMaster.java:748)at org.apache.hadoop.hbase.master.HMaster.access$500(HMaster.java:184)at org.apache.hadoop.hbase.master.HMaster$1.run(HMaster.java:1729)at java.lang.Thread.run(Thread.java:748)

小猿分析

  • HBase 版本:Apache 1.2.1
  • 集群规模:120000+ region

    看错误日志,好像只看到了ZK的身影,日志关键词是[ZooKeeper.getChildren|Packet|out of range|ConnectionLoss for /hbase/region-in-transition]。 我们知道,HBase Master 重启时要做很多初始化工作,要与ZK数据节点进行一些交互工作,如元数据或节点状态的注册、修改、获取等等。看这些关键词大概好像明白是怎么回事:ZooKeeper在getChildren(region-in-transition)的时候超出了Packet的range,导致连接丢失了,Failed to become active master。

那什么是Packet呢?小猿问了问度娘,度娘回答说:

在 ZooKeeper 中,Packet 是一个最小的通信协议单元,即数据包。Pakcet 用于进行客户端与服务端之间的网络传输,任何需要传输的对象都需要包装成一个 Packet 对象。

那就是读取zk节点数据包长度有限制咯,这个时候我们肯定是先去网上找下zk有没有相关的参数可以调一下。结果还真的有:jute.maxbuffer,感觉自己很幸运。套用官网的话解释一下这个参数:

(Java system property: jute.maxbuffer) This option can only be set as a Java system property. There is no zookeeper prefix on it. It specifies the maximum size of the data that can be stored in a znode. The default is 0xfffff, or just under 1M. If this option is changed, the system property must be set on all servers and clients otherwise problems will arise. This is really a sanity check. ZooKeeper is designed to store data on the order of kilobytes in size.

翻译一下:

(Java系统属性:jute.maxbuffer) 此选项只能设置为Java系统属性。上面没有Zookeeper前缀。它指定可以存储在znode中的数据的最大大小。默认值为0xfffff,或不到1M。如果更改此选项,则必须在所有服务器和客户端上设置系统属性,否则会出现问题。这确实是一个健全性检查。ZooKeeper旨在存储大小为千字节的数据。

也有另一种说法:

需要注意的是,该参数并不是在 Server 和 Client 端同时设置才会生效。实际情况是,在客户端设置后,Zookeeper 将控制从 Server 端读取数据的大小(outgoingBuffer);而在服务端设置后,则是控制从 Client 端写入数据的大小(incomingBuffer)

相关代码如下:

protected final ByteBuffer lenBuffer = ByteBuffer.allocateDirect(4);
protected ByteBuffer incomingBuffer = lenBuffer;protected void readLength() throws IOException {int len = incomingBuffer.getInt();if (len < 0 || len >= ClientCnxn.packetLen) {throw new IOException("Packet len" + len + " is out of range!");}incomingBuffer = ByteBuffer.allocate(len);
}public static final int packetLen = Integer.getInteger("jute.maxbuffer", 4096 * 1024);

那为什么会读取这么大一个包呢?基于上文提到的关键字/hbase/region-in-transition(待分配region信息) 及Region的规模(120000+),我们猜测是因为Region太多了,导致/hbase/region-in-transition节点太大,HMaster读取该节点数据时超出限制并以失败告终。我们也在HBase Jira库找到了相关issue: Cluster with too many regions cannot withstand some master failover scenarios https://issues.apache.org/jira/browse/HBASE-4246

我们很多时候都不是第一个湿鞋的人,也许你今天帮别人解决的问题,就是你明天可能遇到的答案。这也是老店开设问答专栏《读者来信》的初心--为了知识更好的传播与分享!

小猿解答

当然也不只/region-in-transition节点会有这样的问题,/unssigned 等节点也可能会有一样的问题。解决方案总结如下: 方案一:清理zk节点历史上存在的垃圾数据

该方案旨在将zk节点的数据大小降下来,是否可以降到红线以下。

方案二:调大参数jute.maxbuffer

# 设置 Client 端
$ vim $ZOOKEEPER_HOME/bin/zkCli.sh# 增加 -Djute.maxbuffer=<buffer_size> 参数"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}"  "-Djute.maxbuffer=1073741824"  \-cp "$CLASSPATH" $CLIENT_JVMFLAGS $JVMFLAGS \org.apache.zookeeper.ZooKeeperMain "$@"# 设置 Server 端
$ vim $ZOOKEEPER_HOME/conf/zoo.cfg# 增加 jute.maxbuffer=<buffer_size> 参数jute.maxbuffer=1073741824

调大该参数可能有风险,上面也提到zk旨在存储大小为千字节的数据。

方案三:使用层次结构(来自社区评论区)

该方案是通过区域ID的前缀将·/hbase/region-in-transition 目录分片。例如,区域1234567890abcdef将位于/hbase/region-in-transition/1234/1234567890abcdef中。因此,我们必须进行遍历才能获得完整列表。

参考文献

  • https://issues.apache.org/jira/browse/HBASE-4246
  • https://cloud.tencent.com/developer/article/1516691
  • https://yuzhouwan.com/posts/31915/

扫描二维码关注博主公众号

转载请注明出处!欢迎关注本人微信公众号【HBase工作笔记】

这篇关于读者来信 | 如果你家HBase集群Region太多请点进来看看,这个问题你可能会遇到的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/697448

相关文章

IDEA和GIT关于文件中LF和CRLF问题及解决

《IDEA和GIT关于文件中LF和CRLF问题及解决》文章总结:因IDEA默认使用CRLF换行符导致Shell脚本在Linux运行报错,需在编辑器和Git中统一为LF,通过调整Git的core.aut... 目录问题描述问题思考解决过程总结问题描述项目软件安装shell脚本上git仓库管理,但拉取后,上l

idea npm install很慢问题及解决(nodejs)

《ideanpminstall很慢问题及解决(nodejs)》npm安装速度慢可通过配置国内镜像源(如淘宝)、清理缓存及切换工具解决,建议设置全局镜像(npmconfigsetregistryht... 目录idea npm install很慢(nodejs)配置国内镜像源清理缓存总结idea npm in

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

idea突然报错Malformed \uxxxx encoding问题及解决

《idea突然报错Malformeduxxxxencoding问题及解决》Maven项目在切换Git分支时报错,提示project元素为描述符根元素,解决方法:删除Maven仓库中的resolv... 目www.chinasem.cn录问题解决方式总结问题idea 上的 maven China编程项目突然报错,是

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

前端导出Excel文件出现乱码或文件损坏问题的解决办法

《前端导出Excel文件出现乱码或文件损坏问题的解决办法》在现代网页应用程序中,前端有时需要与后端进行数据交互,包括下载文件,:本文主要介绍前端导出Excel文件出现乱码或文件损坏问题的解决办法,... 目录1. 检查后端返回的数据格式2. 前端正确处理二进制数据方案 1:直接下载(推荐)方案 2:手动构造

Python绘制TSP、VRP问题求解结果图全过程

《Python绘制TSP、VRP问题求解结果图全过程》本文介绍用Python绘制TSP和VRP问题的静态与动态结果图,静态图展示路径,动态图通过matplotlib.animation模块实现动画效果... 目录一、静态图二、动态图总结【代码】python绘制TSP、VRP问题求解结果图(包含静态图与动态图

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

《MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决》MyBatis默认开启一级缓存,同一事务中循环调用查询方法时会重复使用缓存数据,导致获取的序列主键值均为1,... 目录问题原因解决办法如果是存储过程总结问题myBATis有如下代码获取序列作为主键IdMappe

k8s容器放开锁内存限制问题

《k8s容器放开锁内存限制问题》nccl-test容器运行mpirun时因NCCL_BUFFSIZE过大导致OOM,需通过修改docker服务配置文件,将LimitMEMLOCK设为infinity并... 目录问题问题确认放开容器max locked memory限制总结参考:https://Access

Java中字符编码问题的解决方法详解

《Java中字符编码问题的解决方法详解》在日常Java开发中,字符编码问题是一个非常常见却又特别容易踩坑的地方,这篇文章就带你一步一步看清楚字符编码的来龙去脉,并结合可运行的代码,看看如何在Java项... 目录前言背景:为什么会出现编码问题常见场景分析控制台输出乱码文件读写乱码数据库存取乱码解决方案统一使