万亿参数大模型网络怎么建?GTC 2024立了个标杆

2024-03-21 19:12

本文主要是介绍万亿参数大模型网络怎么建?GTC 2024立了个标杆,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

​多年来,NVIDIA一直在面向AI的数据中心方面布局,随着大模型与生成式AI的到来,NVIDIA也为大模型AI智算中心立了个Flag,这就是黄仁勋近两年来经常挂在嘴边上的“AI工厂”。

早在2022年9月的GTC大会上,黄仁勋就预测数据中心将发生进化。随着大模型与生成式AI的爆发,黄仁勋进一步强调生成式AI软件是一种全新的软件品类,因此需要一种新的计算方式——专用AI数据中心。对此,业界广泛使用的词汇叫作智算中心。

专用AI数据中心也被黄仁勋称为“AI工厂”,未来每一家公司都会有两个工厂——一个是制造工厂、一个是AI工厂。黄仁勋预测未来5年内全球数据中心基础设施安装量翻一番,每年创造数千亿美元的市场机会。

2023年,千亿规模参数大模型,风起云涌;2024,万亿规模参数大模型,呼啸而来。GPT-3公开的参数规模为1750亿,而GPT-4的参数规模市场猜测已经到了万亿规模。而由赛迪发布的《2024中国人工智能多模态大模型企业综合竞争力20强研究报告》,约30%上榜企业的模型参数规模达到万亿级以上。

万亿参数规模大模型智算中心,到底该怎么建?如何缩短建设周期?在GTC 2024上,NVIDIA给出了答案,这就是产品化的DGX AI Supercomputer,由DGX SuperPOD模块化构建,DGX SuperPOD提供了“顶配版”、“中配版”和“低配版”三个选择。

其中,与DGX SuperPOD “顶配版”同时上市的还有第五代 NVIDIA NVLink 网络、NVIDIA Quantum-X800 InfiniBand,加上NVIDIA BlueField-3 DPU, 这个架构可为计算平台中的每块GPU提供高达每秒1800 GB的带宽。

第五代 NVLink网络。为了提升万亿级参数模型和混合专家大模型的性能,最新一代NVIDIA NVLink为每块GPU提供突破性的1.8TB/s双向吞吐量,确保多达576块GPU之间的无缝高速通信,满足了当今最复杂大模型的需求。

NVIDIA Quantum-X800 InfiniBand。Quantum-X800包含了NVIDIA Quantum Q3400交换机和NVIDIA ConnectX-8 SuperNIC,二者互连达到了业界领先的端到端800Gb/s吞吐量,交换带宽容量较上一代产品提高了5倍,网络计算能力凭借新一代的NVIDIA SHARP技术(SHARPv4)提高了9倍,达到了14.4Tflops。 

新推出的第四代 NVIDIA 可扩展分层聚合和规约协议(SHARP)技术可提供14.4Tflops的网络计算能力,与上一代产品相比,新一代 DGX SuperPOD 架构的网络计算能力提高了4倍。

可以说Quantum-X800平台树立了AI专用基础设施极致性能的新标杆,也为万亿参数大模型智算中心网络树立了新标杆。NVIDIA还提供了面向万亿参数级大模型性能优化的网络加速通信库、软件开发套件和管理软件等全套软件方案。

DGX AI Supercomputer的“顶配版”采用的是最新GB200超级芯片(包含两个B200 GPU和一个Grace CPU)和高效液冷机架级扩展架构以及Quantum-X800网络平台。

DGX AI Supercomputer的“中配版”采用的是最新B200 GPU芯片和风冷架构以及新推出的Spectrum-X800以太网络平台。借助800Gb/s的Spectrum SN5600交换机和NVIDIA BlueField-3 SuperNIC,Spectrum-X800 平台为多租户生成式 AI 云和大型企业级用户带来多种先进功能。

DGX AI Supercomputer还有一个“低配版”,搭载了已经上市的H100 GPU和NVIDIA ConnectX-7 SmartNIC。考虑到上市两年的H100仍处于供不应求的状态,DGX AI Supercomputer“低配版”对于很多客户来说也已经是“高配版”了。

由DGX SuperPOD模块化构建的DGX AI Supercomputer是全球首个交钥匙工程化产品化的大模型AI智算中心。DGX SuperPOD是一台完整的数据中心级AI超级计算机,在与 NVIDIA 认证合作伙伴提供的高性能存储集成后,能够满足生成式 AI 工作负载的需求,每台超级计算机都在出厂前完成了搭建、布线和测试,从而极大加快了在用户数据中心的部署速度。

万亿参数大模型网络怎么建?GTC 2024为智算中心市场立了一个标杆。一个真正的AI变革时刻,到来了。(文/宁川)

这篇关于万亿参数大模型网络怎么建?GTC 2024立了个标杆的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833638

相关文章

SpringBoot 获取请求参数的常用注解及用法

《SpringBoot获取请求参数的常用注解及用法》SpringBoot通过@RequestParam、@PathVariable等注解支持从HTTP请求中获取参数,涵盖查询、路径、请求体、头、C... 目录SpringBoot 提供了多种注解来方便地从 HTTP 请求中获取参数以下是主要的注解及其用法:1

HTTP 与 SpringBoot 参数提交与接收协议方式

《HTTP与SpringBoot参数提交与接收协议方式》HTTP参数提交方式包括URL查询、表单、JSON/XML、路径变量、头部、Cookie、GraphQL、WebSocket和SSE,依据... 目录HTTP 协议支持多种参数提交方式,主要取决于请求方法(Method)和内容类型(Content-Ty

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

python中的显式声明类型参数使用方式

《python中的显式声明类型参数使用方式》文章探讨了Python3.10+版本中类型注解的使用,指出FastAPI官方示例强调显式声明参数类型,通过|操作符替代Union/Optional,可提升代... 目录背景python函数显式声明的类型汇总基本类型集合类型Optional and Union(py

Go语言使用Gin处理路由参数和查询参数

《Go语言使用Gin处理路由参数和查询参数》在WebAPI开发中,处理路由参数(PathParameter)和查询参数(QueryParameter)是非常常见的需求,下面我们就来看看Go语言... 目录一、路由参数 vs 查询参数二、Gin 获取路由参数和查询参数三、示例代码四、运行与测试1. 测试编程路

Python开发简易网络服务器的示例详解(新手入门)

《Python开发简易网络服务器的示例详解(新手入门)》网络服务器是互联网基础设施的核心组件,它本质上是一个持续运行的程序,负责监听特定端口,本文将使用Python开发一个简单的网络服务器,感兴趣的小... 目录网络服务器基础概念python内置服务器模块1. HTTP服务器模块2. Socket服务器模块

Go语言网络故障诊断与调试技巧

《Go语言网络故障诊断与调试技巧》在分布式系统和微服务架构的浪潮中,网络编程成为系统性能和可靠性的核心支柱,从高并发的API服务到实时通信应用,网络的稳定性直接影响用户体验,本文面向熟悉Go基本语法和... 目录1. 引言2. Go 语言网络编程的优势与特色2.1 简洁高效的标准库2.2 强大的并发模型2.

Python lambda函数(匿名函数)、参数类型与递归全解析

《Pythonlambda函数(匿名函数)、参数类型与递归全解析》本文详解Python中lambda匿名函数、灵活参数类型和递归函数三大进阶特性,分别介绍其定义、应用场景及注意事项,助力编写简洁高效... 目录一、lambda 匿名函数:简洁的单行函数1. lambda 的定义与基本用法2. lambda

Spring Boot spring-boot-maven-plugin 参数配置详解(最新推荐)

《SpringBootspring-boot-maven-plugin参数配置详解(最新推荐)》文章介绍了SpringBootMaven插件的5个核心目标(repackage、run、start... 目录一 spring-boot-maven-plugin 插件的5个Goals二 应用场景1 重新打包应用

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.