(转)HBase为什么不建议设置过多的列簇?

2024-05-24 10:18
文章标签 设置 建议 过多 hbase

本文主要是介绍(转)HBase为什么不建议设置过多的列簇?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在HBase中,是允许设置多个列簇的,但是为什么在实际生产中会设置很少的列簇呢?一般设置在1至3个左右,尽量是越少越好。
原因有多个方面,具体简要说明几点:

1、列簇的数量对flush的影响
在一个RegionServer上有一个或多个region,每个region又由一个或多个store组成,一个store存储的就是一个列簇,也就是说列簇的数量越多,每个region的的store就越多,那么region中的memstore数量就会就多,当memstore达到一定的阈值时,就会将memstore中的数据flush到storeFile中,每次flush都会产生IO,当memstore数量增多时,需要flush的就越多,就会影响了flush的IO性能及消耗更多的集群资源,甚至会造成memstore的flush阻塞现象。

2、列簇的数量对split的影响
在region的大小超过一定的大小时(hbase.hregion.max.filesize参数),region就会分裂,当然region的分裂并不是region中所有的文件大小大于上述的参数就分裂,而是region中最大的storeFile的大小达到了上述参数的值时才会触发region分裂,如果列簇的数量过多的话,并且这些列簇之间的数据量相差很大,那么在region分裂后原本数据量小的storeFile就会拆分成更小的文件,在scan范围数据时就会影响该列簇数据的读性能,因为region的分裂针对的是所有的列簇,并不是某单个的列簇,是为了保证分裂之后相同行的数据在仍在一个region上。

3、列簇的数量对compaction的影响
同样的,compaction的操作针对的是region的操作,在列簇越多时,相关文件就会越多,region合并时产生的IO就会消耗越多,加大了资源的消耗。

4、列簇的数量对HDFS的影响
HDFS对目录下的文件数量是有限制的(dfs.namenode.fs-limits.max-directory-items),例如region的数量为m个,列簇的数量为n个,那么对应的文件数量就有mn个,但是每个store下的storeFile(HFile)的数量至少有一个,假设有K个,那么总共对应的文件数量就有mn*k个,列簇的数量是文件数量的n倍。

5、列簇的数量对RegionServer内存的影响
在一个store中存储的就是一个列簇,store中的memstore是内存结构,当列簇越多,那么memstore的数量就越多,占用的内存的空间就会越多。

总结:根据实际生产需求,能够用一个列簇解决的就尽量用一个列簇,当两个列簇的数量相差悬殊时,可以将其两个列簇的数据拆分为两个表的单个列簇。
————————————————
版权声明:本文为CSDN博主「已个人」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_43888806/article/details/100127854

这篇关于(转)HBase为什么不建议设置过多的列簇?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/998126

相关文章

PostgreSQL 默认隔离级别的设置

《PostgreSQL默认隔离级别的设置》PostgreSQL的默认事务隔离级别是读已提交,这是其事务处理系统的基础行为模式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一 默认隔离级别概述1.1 默认设置1.2 各版本一致性二 读已提交的特性2.1 行为特征2.2

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

mtu设置多少网速最快? 路由器MTU设置最佳网速的技巧

《mtu设置多少网速最快?路由器MTU设置最佳网速的技巧》mtu设置多少网速最快?想要通过设置路由器mtu获得最佳网速,该怎么设置呢?下面我们就来看看路由器MTU设置最佳网速的技巧... 答:1500 MTU值指的是在网络传输中数据包的最大值,合理的设置MTU 值可以让网络更快!mtu设置可以优化不同的网

MySQL 设置AUTO_INCREMENT 无效的问题解决

《MySQL设置AUTO_INCREMENT无效的问题解决》本文主要介绍了MySQL设置AUTO_INCREMENT无效的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录快速设置mysql的auto_increment参数一、修改 AUTO_INCREMENT 的值。

详解Linux中常见环境变量的特点与设置

《详解Linux中常见环境变量的特点与设置》环境变量是操作系统和用户设置的一些动态键值对,为运行的程序提供配置信息,理解环境变量对于系统管理、软件开发都很重要,下面小编就为大家详细介绍一下吧... 目录前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变

安装centos8设置基础软件仓库时出错的解决方案

《安装centos8设置基础软件仓库时出错的解决方案》:本文主要介绍安装centos8设置基础软件仓库时出错的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录安装Centos8设置基础软件仓库时出错版本 8版本 8.2.200android4版本 javas

Ubuntu设置程序开机自启动的操作步骤

《Ubuntu设置程序开机自启动的操作步骤》在部署程序到边缘端时,我们总希望可以通电即启动我们写好的程序,本篇博客用以记录如何在ubuntu开机执行某条命令或者某个可执行程序,需要的朋友可以参考下... 目录1、概述2、图形界面设置3、设置为Systemd服务1、概述测试环境:Ubuntu22.04 带图

VSCode设置python SDK路径的实现步骤

《VSCode设置pythonSDK路径的实现步骤》本文主要介绍了VSCode设置pythonSDK路径的实现步骤,包括命令面板切换、settings.json配置、环境变量及虚拟环境处理,具有一定... 目录一、通过命令面板快速切换(推荐方法)二、通过 settings.json 配置(项目级/全局)三、

如何Python使用设置word的页边距

《如何Python使用设置word的页边距》在编写或处理Word文档的过程中,页边距是一个不可忽视的排版要素,本文将介绍如何使用Python设置Word文档中各个节的页边距,需要的可以参考下... 目录操作步骤代码示例页边距单位说明应用场景与高级用China编程途小结在编写或处理Word文档的过程中,页边距是一个

Spring Boot 常用注解详解与使用最佳实践建议

《SpringBoot常用注解详解与使用最佳实践建议》:本文主要介绍SpringBoot常用注解详解与使用最佳实践建议,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录一、核心启动注解1. @SpringBootApplication2. @EnableAutoConfi