分析 丨 AI数据中心堪比超算,NVIDIA与AMD同场竞技

2023-10-20 22:50

本文主要是介绍分析 丨 AI数据中心堪比超算,NVIDIA与AMD同场竞技,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

重点内容速览:

| AI数据中心冲击超级计算机排行
| AI数据中心使用的主要处理器
| 主要的国产服务器处理器

超级计算机对于科学研究、能源、工程设计领域具有重要意义,在商业用途中也发挥重要作用。2022年高性能计算专业大会发布的全球超级计算机Top500排行榜显示,美国橡树岭国家实验室(ORNL)的Frontier系统位列榜首,自2022年6月以来,Frontier一直是全球超级计算机Top500名单上的强大设备。

 

图片

        图注:全球超级计算机Top10,发布时间为2022年11月(来源:中科院网信工作网) 

进入2023年,超级计算机的排行将发生改变。

芯查查APP显示,在美国劳伦斯利弗莫尔国家实验室(LLNL)安装的“El Capitan”超级计算机最快于2023年底启动,从而可能刷新全球超级计算机榜单。El Capitan估计FP64峰值性能约为2.3 exaflops,比Frontier超级计算机的1.68 exaflops性能高出约37%。

同时,人工智能(AI)应用掀起,超大规模云服务企和AI初创企业都开始构建大型数据中心,比如,NVIDIA和CoreWeave正在为Inflection AI开发数据中心;Microsoft Azure正在为OpenAI构建的数据中心。从下图可以看出,目前在建的这两个AI数据中心在TFLOPS算力性能上虽然不如现有的超级计算机,但是在成本上已经超出很多。

图片

                    图注:超级计算机与AI数据中心对比(来源:nextplatform网站)

AI数据中心面向AI训练和推理进行配置,在建的AI数据中心进程如何?使用了哪些处理器?

Inflection AI使用处理器:

NVIDIA H100

Inflection AI是一家由Deep Mind前负责人创建,并由Microsoft和Nvidia支持的新创业公司。目前估值约为40亿美元,产品为AI聊天机器人,支持计划、调度和信息收集。

在筹集了13亿美元的资金之后,Inflection AI将建立一个由多达22000个NVIDIA H100 GPU驱动的超级计算机集群,其峰值理论计算能力将与Frontier相当。理论上能够提供1.474 exaflops的FP64性能。在CUDA内核上运行通用FP64代码时,峰值吞吐量仅为其一半:0.737 FP64 exaflops(与前文图表数值略有出入,但相差不大)。虽然FP64性能对于许多科学工作负载很重要,但对于面向AI的任务,该系统可能会更快。FP16/BF16的峰值吞吐量为43.5 exaflops,FP8吞吐量的峰值吞吐量是87.1 exaflops。

图片

                                                              图片来源:NVIDIA

Inflection AI的服务器集群成本尚不清楚,但NVIDIA H100 GPU零售价超过30000美元,预计该集群的GPU成本将达到数亿美元。加上所有机架服务器和其他硬件,将占13亿美元资金的大部分。

在市场需求远远超过供应的情况下,NVIDIA或AMD不会为其GPU计算引擎给予大幅折扣就,其服务器OEM和ODM合作伙伴同样如此。因此,与美国的百亿亿次高性能计算系统相比,这些设备非常昂贵。Inflection AI的FP16半精度性能为21.8 exaflops,足以驱动一些非常大的LLM和DLRM(大型语言模型和深度学习推荐模型)。

El Capitan使用处理器:

AMD Instinct MI300A

为超级计算机“El Capitan”提供算力的处理器是“Antares”AMD Instinct MI300A CPU-GPU混合体,其FP16矩阵数学性能仍然未知。

图片

                     图注:基于AMD MI300的刀片设施(来源:tomshardware.com)

Instinct MI300是一款数据中心APU,它混合了总共13个chiplet,其中许多是3D堆叠的,形成一个单芯片封装,其中包含24个Zen 4 CPU内核,融合CDNA 3图形引擎和八个总容量为128GB的HBM3内存堆栈。这个芯片拥有1460亿个晶体管,使其成为AMD投入生产的最大芯片。其中,由9个计算die构成的5nm CPU和GPU混合体,在4个6nm die上进行3D堆叠,这4个die主要处理内存和I/O流量。

预计每个MI300A在2.32 GHz时钟频率下可提供784 teraflops性能,常规MI300的时钟频率约为1.7GHz。慧与公司(HPE)或许在El Capitan系统中为每个滑轨配置8个MI300A,El Capitan的计算部分应该有大约2931个节点、46个机柜和8行设备。基于上述猜测,El Capitan应该有大约23500个MI300 GPU,具备大约18.4 exaflops的FP16矩阵数学峰值性能。相比Inflection AI,用更少的钱,发挥出更大性能。

Microsoft/OpenAI使用处理器:

NVIDIA H100

传闻Microsoft正在为OpenAI构建25000 GPU集群,用于训练GPT-5。

从历史上看,Microsoft Azure使用PCI-Express版本的NVIDIA加速器构建其HPC和AI集群,并使用InfiniBand网络将它们连接在一起。

为OpenAI构建的集群使用NVIDIA H100 PCI-Express板卡,假设为每个20000美元,即5亿美元。另外,使用英特尔“Sapphire Rapids”至强SP主机处理器、2TB的主内存和合理数量的本地存储,每个节点再增加150000美元,这将为容纳这25000个GPU的3125个节点再增加4.69亿美元。InfiniBand网络将增加2.42亿美元。合计12.1亿美元,这些费用要比国家实验室的超级计算机贵很多。

全球超级计算机追求新颖的架构,为最终商业化而进行研发。超大规模云服务商可以做同样的数学运算,构建自己的计算引擎,包括亚马逊网络服务、谷歌、百度和Facebook都是如此。即使有50%的折扣,诸如Inflection AI和OpenAI的设备单位价格仍然比国家实验室为超级计算机昂贵。

“神威·太湖之光”使用处理器:

申威26010

以2022年的全球超级计算机榜单来看,进入Top10的我国超级计算机是“神威·太湖之光”。资料显示,该计算机安装了40960个中国自主研发的申威26010众核处理器,采用64位自主神威指令系统,峰值性能为12.5亿亿次每秒,持续性能为9.3亿亿次每秒,核心工作频率1.5GHz。

申威和龙芯目前是我国自研处理器的代表,两者均采用自研处理器的指令集架构。CPU国产化目前有3种方式,一个是获得x86内核授权,一个是获得Arm指令集架构授权,另一种是自研指令集架构,这种方式的安全可控程度较高,也是自主化较为彻底的一种方式。

图片

                                             图注:国内服务器处理器厂商 

小 结

随着人工智能应用发酵,超级计算机与AI数据中心的界限可能变得模糊,两者的硬件和架构已经发展到可以更快地处理更多数据,因此其配置将会逐步超越,芯查查认为,整体呈现为几点趋势:

面向AI应用,高性能处理器采用更多核心、异质架构将更加普遍,以支持更多的并行计算和更快的数据处理速度,处理器的内存管理和缓存设计也得到了优化,以减少对主存储器的访问延迟。

专门的加速器,比如图形处理单元(GPU)和神经网络处理单元(NPU),将被引入处理器,高效地执行矩阵计算和神经网络。

能效是AI数据中心和超级计算机共同难点,处理器能效成为要点,设计趋向于降低功耗和散热需求,采用更先进的制程技术、优化的电源管理以及动态频率调节等方法。

AI数据中心和超级计算机建设的需求推动了处理器的发展,也推动了存储、结构和GPU的进步,这些组件都将服务于系统的数据吞吐量和效率。

参考资料

1、“全球超级计算机Top500最新榜单发布”。

http://www.ecas.cas.cn/xxkw/kbcd/201115_129567/ml/xxhjsyjcss/202212/t20221219_4576256.html

2、“LINING UP THE “EL CAPITAN” SUPERCOMPUTER AGAINST THE AI UPSTARTS”。

https://www.nextplatform.com/2023/07/10/lining-up-the-el-capitan-supercomputer-against-the-ai-upstarts/

3、百度百科-神威·太湖之光超级计算机。

https://baike.baidu.com/item/%E7%A5%9E%E5%A8%81%C2%B7%E5%A4%AA%E6%B9%96%E4%B9%8B%E5%85%89%E8%B6%85%E7%BA%A7%E8%AE%A1%E7%AE%97%E6%9C%BA/19755876

图片

这篇关于分析 丨 AI数据中心堪比超算,NVIDIA与AMD同场竞技的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/250221

相关文章

Nginx分布式部署流程分析

《Nginx分布式部署流程分析》文章介绍Nginx在分布式部署中的反向代理和负载均衡作用,用于分发请求、减轻服务器压力及解决session共享问题,涵盖配置方法、策略及Java项目应用,并提及分布式事... 目录分布式部署NginxJava中的代理代理分为正向代理和反向代理正向代理反向代理Nginx应用场景

Redis中的有序集合zset从使用到原理分析

《Redis中的有序集合zset从使用到原理分析》Redis有序集合(zset)是字符串与分值的有序映射,通过跳跃表和哈希表结合实现高效有序性管理,适用于排行榜、延迟队列等场景,其时间复杂度低,内存占... 目录开篇:排行榜背后的秘密一、zset的基本使用1.1 常用命令1.2 Java客户端示例二、zse

Redis中的AOF原理及分析

《Redis中的AOF原理及分析》Redis的AOF通过记录所有写操作命令实现持久化,支持always/everysec/no三种同步策略,重写机制优化文件体积,与RDB结合可平衡数据安全与恢复效率... 目录开篇:从日记本到AOF一、AOF的基本执行流程1. 命令执行与记录2. AOF重写机制二、AOF的

MyBatis Plus大数据量查询慢原因分析及解决

《MyBatisPlus大数据量查询慢原因分析及解决》大数据量查询慢常因全表扫描、分页不当、索引缺失、内存占用高及ORM开销,优化措施包括分页查询、流式读取、SQL优化、批处理、多数据源、结果集二次... 目录大数据量查询慢的常见原因优化方案高级方案配置调优监控与诊断总结大数据量查询慢的常见原因MyBAT

分析 Java Stream 的 peek使用实践与副作用处理方案

《分析JavaStream的peek使用实践与副作用处理方案》StreamAPI的peek操作是中间操作,用于观察元素但不终止流,其副作用风险包括线程安全、顺序混乱及性能问题,合理使用场景有限... 目录一、peek 操作的本质:有状态的中间操作二、副作用的定义与风险场景1. 并行流下的线程安全问题2. 顺

MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决

《MyBatis/MyBatis-Plus同事务循环调用存储过程获取主键重复问题分析及解决》MyBatis默认开启一级缓存,同一事务中循环调用查询方法时会重复使用缓存数据,导致获取的序列主键值均为1,... 目录问题原因解决办法如果是存储过程总结问题myBATis有如下代码获取序列作为主键IdMappe

Java中最全最基础的IO流概述和简介案例分析

《Java中最全最基础的IO流概述和简介案例分析》JavaIO流用于程序与外部设备的数据交互,分为字节流(InputStream/OutputStream)和字符流(Reader/Writer),处理... 目录IO流简介IO是什么应用场景IO流的分类流的超类类型字节文件流应用简介核心API文件输出流应用文

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

Android 缓存日志Logcat导出与分析最佳实践

《Android缓存日志Logcat导出与分析最佳实践》本文全面介绍AndroidLogcat缓存日志的导出与分析方法,涵盖按进程、缓冲区类型及日志级别过滤,自动化工具使用,常见问题解决方案和最佳实... 目录android 缓存日志(Logcat)导出与分析全攻略为什么要导出缓存日志?按需过滤导出1. 按

Linux中的HTTPS协议原理分析

《Linux中的HTTPS协议原理分析》文章解释了HTTPS的必要性:HTTP明文传输易被篡改和劫持,HTTPS通过非对称加密协商对称密钥、CA证书认证和混合加密机制,有效防范中间人攻击,保障通信安全... 目录一、什么是加密和解密?二、为什么需要加密?三、常见的加密方式3.1 对称加密3.2非对称加密四、