笨鸟的平凡之路-CDH集群角色和节点数规划建议

2023-11-02 06:10

本文主要是介绍笨鸟的平凡之路-CDH集群角色和节点数规划建议,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、 CDH组件角色说明

Hadoop 集群服务器按照节点任务的不同可以分为管理节点和工作节点。管理节点上部署各组件的管理角色,工作节点部署各角色的存储、容器或计算角色。但因为Hadoop 不同组件之间兼容性的问题,所以一般使用Cloudera 套件。 在CDH套件中就有如下角色。
在这里插入图片描述


2、 CDH 节点数量建议

2.1 小规模集群

一般来说,小于20个节点的都属于小规模集群,受限于集群的存储和处理能力,小规模集群不太适合用于多业务的环境。可以部署成 HBase 的集群,也可以部署成分析集群,包含 YARN、Impala 。在小规模集群中,为了最大化利用集群的存储和处理能力,节点的复用程度往往比较高。

2.2 中等规模集群

一个中等规模的集群,集群的节点数一般在20到200左右,通常的数据存储可以规划到几百TB,适用于一个中型企业的数据平台,或者大型企业的业务部门数据平台。节点的复用程度可以降低,可以按照管理节点、主节点、工具节点和工作节点来划分。

这些节点中包含:
1个CM管理节点:用来安装 Cloudera Manager 和Cloudera Management Service,以对CDH进行管理。

3个主节点:用来安装 CDH 服务以HA 的组件。如3个ZKServer、两个 NameNode(主备)、两个ResourceManager,3个HBase Master1个Hive Metastore 、1个spark History Server之类管理角色。角色分配可以参考下图:
在这里插入图片描述
N个工具节点:用来部署HIVE Server2,、Hue Server、Oozie Server、Flum Agent 、Sqoop Client 、Gateway等。

N个工作节点:部署HDFS DataNode,YARN NodeManager,Implala Daemon,HBase Region Server。


3、 大规模集群

大规模集群的节点数量一般会在 200 以上,存储容量可以是几百TB甚至是PB级别的数据,适用于大型企业搭建的数据平台。大型集群的架构和中型集群的类似,只是主节点的数量从3个增加到5个,从而增加了主节点的可用性。剩下都是工作节点的增加。
  当主节点增加到5个后,HDFS JournalNode 也从3个增加到5个,ZooKeeper Server 和HBase Master 也从3个增加到5个,Hive Metastore 由1个增加到3个。


4、 CDH 节点推荐的硬件配置

业务类型不同,集群具体配置也有区别。
(1)实时流处理服务集群
  由于性能的原因, Hadoop 实时流处理对节点内存和 CPU 有较高要求,基于 Spark Streaming 的流处理消息吞吐量可随节点数量增加而线性增长,配置可参考下图:
在这里插入图片描述
(2)在线分析业务集群
  在线分析业务一般基于Impala等 MPP SQL 引擎,复杂的 SQL计算对内存容量有较高要求,因此需要128GB至更多的内存的硬件,推荐配置如下:
在这里插入图片描述
(3)云存储业务集群
  存储业务主要面向海量数据和文件的存储和计算,强调单节点存储容量和成本,因此配置相对廉价的SATA 硬盘,满足成本和容量的需求,推荐配置如下:
在这里插入图片描述

这篇关于笨鸟的平凡之路-CDH集群角色和节点数规划建议的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/328635

相关文章

Jenkins分布式集群配置方式

《Jenkins分布式集群配置方式》:本文主要介绍Jenkins分布式集群配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装jenkins2.配置集群总结Jenkins是一个开源项目,它提供了一个容易使用的持续集成系统,并且提供了大量的plugin满

C++链表的虚拟头节点实现细节及注意事项

《C++链表的虚拟头节点实现细节及注意事项》虚拟头节点是链表操作中极为实用的设计技巧,它通过在链表真实头部前添加一个特殊节点,有效简化边界条件处理,:本文主要介绍C++链表的虚拟头节点实现细节及注... 目录C++链表虚拟头节点(Dummy Head)一、虚拟头节点的本质与核心作用1. 定义2. 核心价值二

Redis分片集群、数据读写规则问题小结

《Redis分片集群、数据读写规则问题小结》本文介绍了Redis分片集群的原理,通过数据分片和哈希槽机制解决单机内存限制与写瓶颈问题,实现分布式存储和高并发处理,但存在通信开销大、维护复杂及对事务支持... 目录一、分片集群解android决的问题二、分片集群图解 分片集群特征如何解决的上述问题?(与哨兵模

SpringBoot连接Redis集群教程

《SpringBoot连接Redis集群教程》:本文主要介绍SpringBoot连接Redis集群教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 依赖2. 修改配置文件3. 创建RedisClusterConfig4. 测试总结1. 依赖 <de

Redis 配置文件使用建议redis.conf 从入门到实战

《Redis配置文件使用建议redis.conf从入门到实战》Redis配置方式包括配置文件、命令行参数、运行时CONFIG命令,支持动态修改参数及持久化,常用项涉及端口、绑定、内存策略等,版本8... 目录一、Redis.conf 是什么?二、命令行方式传参(适用于测试)三、运行时动态修改配置(不重启服务

Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例

《Nginx使用Keepalived部署web集群(高可用高性能负载均衡)实战案例》本文介绍Nginx+Keepalived实现Web集群高可用负载均衡的部署与测试,涵盖架构设计、环境配置、健康检查、... 目录前言一、架构设计二、环境准备三、案例部署配置 前端 Keepalived配置 前端 Nginx

Spring Boot 常用注解详解与使用最佳实践建议

《SpringBoot常用注解详解与使用最佳实践建议》:本文主要介绍SpringBoot常用注解详解与使用最佳实践建议,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录一、核心启动注解1. @SpringBootApplication2. @EnableAutoConfi

Redis高可用-主从复制、哨兵模式与集群模式详解

《Redis高可用-主从复制、哨兵模式与集群模式详解》:本文主要介绍Redis高可用-主从复制、哨兵模式与集群模式的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录Redis高可用-主从复制、哨兵模式与集群模式概要一、主从复制(Master-Slave Repli

Redis分片集群的实现

《Redis分片集群的实现》Redis分片集群是一种将Redis数据库分散到多个节点上的方式,以提供更高的性能和可伸缩性,本文主要介绍了Redis分片集群的实现,具有一定的参考价值,感兴趣的可以了解一... 目录1. Redis Cluster的核心概念哈希槽(Hash Slots)主从复制与故障转移2.

centos7基于keepalived+nginx部署k8s1.26.0高可用集群

《centos7基于keepalived+nginx部署k8s1.26.0高可用集群》Kubernetes是一个开源的容器编排平台,用于自动化地部署、扩展和管理容器化应用程序,在生产环境中,为了确保集... 目录一、初始化(所有节点都执行)二、安装containerd(所有节点都执行)三、安装docker-