大数据分布式计算引擎用虚拟CPU的核心原因?

2024-03-25 04:36

本文主要是介绍大数据分布式计算引擎用虚拟CPU的核心原因?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        两个核心原因:

        第一:为了屏蔽不同服务器之间的CPU算力差异。

        第二:为了增加集群可提交的任务数量以及提高单个CPU的使用效率。

        当我们做大数据开发用分布式计算引擎提交任务时,一般都会给每个提交的任务分配对应的内存和CPU资源。在给一个分布式任务比如spark分配CPU核心数量时,这个核心数其实指的是虚拟核心数。

        为什么是虚拟不是真实的核心数量呢?因为不同的服务器的计算能力是不同的,大数据集群是由多台服务器组合而成,在实际项目中这些服务器的数量可能会随着业务规模的不断扩大而持续的增加,就会引发别的问题,每个批次采购的服务器其型号和配置可能都是不一样的,可能导致不同的服务器之间其CPU的计算能力是不一样的;不同等级的CPU核心数以及每个核心的线程数也不一样,问题随之而来既然这些算力异构的CPU出现在了同一个集群中,那为了方便集中管理这些计算资源,让每一颗不同的CPU算力都能被充分和公平的调度,于是就想到用虚拟核心数来代替传统的物理核心数进行CPU资源的分配;比如有两颗算力不同的CPU他们的核心数或者总线程数是一样的,但是前者的算力是后者算力的两倍,那么在设置虚拟核心数量的时候前者就可以将物理核心数与虚拟核心数的配比设置为1:2,而对于后者物理核心数与虚拟核心数的配比设置为1:1,这样一来通过虚拟核心数的分配方式相同的虚拟核心数量就代表着相同的算力可以有效屏蔽不同CPU之间的算力差异,让算力不同的服务器之间尽可能的保证相同的计算负载。

        分布式计算引擎用虚拟核心数还可以让CPU资源能够得到有效的利用,因为对于集群来说其CPU的总核心数量是一定的,而每一个提交的分布式任务都会占用一定数量的CPU核心。当你提交的任务占用的总核心数量等于集群拥有的总核心数量之后就算你的集群CPU算力还有富余,你的分布式任务是没有办法再继续提交的,而为了让你的集群资源的到充分的利用一般都会将一个物理CPU核心虚拟成两个或者多个来增加集群可提交的任务数量以及提高单个CPU的使用效率。

这篇关于大数据分布式计算引擎用虚拟CPU的核心原因?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/843850

相关文章

JDK21对虚拟线程的几种用法实践指南

《JDK21对虚拟线程的几种用法实践指南》虚拟线程是Java中的一种轻量级线程,由JVM管理,特别适合于I/O密集型任务,:本文主要介绍JDK21对虚拟线程的几种用法,文中通过代码介绍的非常详细,... 目录一、参考官方文档二、什么是虚拟线程三、几种用法1、Thread.ofVirtual().start(

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

MyBatis Plus大数据量查询慢原因分析及解决

《MyBatisPlus大数据量查询慢原因分析及解决》大数据量查询慢常因全表扫描、分页不当、索引缺失、内存占用高及ORM开销,优化措施包括分页查询、流式读取、SQL优化、批处理、多数据源、结果集二次... 目录大数据量查询慢的常见原因优化方案高级方案配置调优监控与诊断总结大数据量查询慢的常见原因MyBAT

Python异常处理之避免try-except滥用的3个核心原则

《Python异常处理之避免try-except滥用的3个核心原则》在Python开发中,异常处理是保证程序健壮性的关键机制,本文结合真实案例与Python核心机制,提炼出避免异常滥用的三大原则,有需... 目录一、精准打击:只捕获可预见的异常类型1.1 通用异常捕获的陷阱1.2 精准捕获的实践方案1.3

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

深入浅出Java中的Happens-Before核心规则

《深入浅出Java中的Happens-Before核心规则》本文解析Java内存模型中的Happens-Before原则,解释其定义、核心规则及实际应用,帮助理解多线程可见性与有序性问题,掌握并发编程... 目录前言一、Happens-Before是什么?为什么需要它?1.1 从一个问题说起1.2 Haht

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl