大数据分布式计算引擎用虚拟CPU的核心原因？

本文主要是介绍大数据分布式计算引擎用虚拟CPU的核心原因？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

两个核心原因：

第一：为了屏蔽不同服务器之间的CPU算力差异。

第二：为了增加集群可提交的任务数量以及提高单个CPU的使用效率。

当我们做大数据开发用分布式计算引擎提交任务时，一般都会给每个提交的任务分配对应的内存和CPU资源。在给一个分布式任务比如spark分配CPU核心数量时，这个核心数其实指的是虚拟核心数。

为什么是虚拟不是真实的核心数量呢？因为不同的服务器的计算能力是不同的，大数据集群是由多台服务器组合而成，在实际项目中这些服务器的数量可能会随着业务规模的不断扩大而持续的增加，就会引发别的问题，每个批次采购的服务器其型号和配置可能都是不一样的，可能导致不同的服务器之间其CPU的计算能力是不一样的；不同等级的CPU核心数以及每个核心的线程数也不一样，问题随之而来既然这些算力异构的CPU出现在了同一个集群中，那为了方便集中管理这些计算资源，让每一颗不同的CPU算力都能被充分和公平的调度，于是就想到用虚拟核心数来代替传统的物理核心数进行CPU资源的分配；比如有两颗算力不同的CPU他们的核心数或者总线程数是一样的，但是前者的算力是后者算力的两倍，那么在设置虚拟核心数量的时候前者就可以将物理核心数与虚拟核心数的配比设置为1：2，而对于后者物理核心数与虚拟核心数的配比设置为1：1，这样一来通过虚拟核心数的分配方式相同的虚拟核心数量就代表着相同的算力可以有效屏蔽不同CPU之间的算力差异，让算力不同的服务器之间尽可能的保证相同的计算负载。

分布式计算引擎用虚拟核心数还可以让CPU资源能够得到有效的利用，因为对于集群来说其CPU的总核心数量是一定的，而每一个提交的分布式任务都会占用一定数量的CPU核心。当你提交的任务占用的总核心数量等于集群拥有的总核心数量之后就算你的集群CPU算力还有富余，你的分布式任务是没有办法再继续提交的，而为了让你的集群资源的到充分的利用一般都会将一个物理CPU核心虚拟成两个或者多个来增加集群可提交的任务数量以及提高单个CPU的使用效率。

这篇关于大数据分布式计算引擎用虚拟CPU的核心原因？的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！