微软分享其首款定制人工智能芯片Maia 100的更多细节

2024-08-30 10:52

本文主要是介绍微软分享其首款定制人工智能芯片Maia 100的更多细节,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在2023年Ignite大会期间,微软首次宣布其已开发出名为Maia的自主人工智能加速器芯片。今年早些时候,在Build开发者大会上,微软分享了其首个自主研发的人工智能加速器Azure Maia 100的更多细节。Maia 100 是台积电 5nm 节点上制造的最大处理器之一,专门为部署在 Azure 中的大规模 AI 工作负载而设计。

在这里插入图片描述
昨天,在 Hot Chips 2024 大会上,微软首次分享了 Maia 100 的规格,并透露了更多细节。你可以在下面找到它们的摘要。

Maia 100 规格

芯片尺寸 - 820mm2

封装 - 采用 COWOS-S 夹层技术的 TSMC N5 工艺

HBM BW/Cap - 1.8TB/s @ 64GB HBM2E

峰值密集张量 POPS - 6 位:3,9 位1.5,BF16:0.8

L1/L2 - 500MB

后端网络 BW - 600GB/秒(12X400gbe)

主机 BW(PCIe)= 32GB/s PCIe Gen5X8

最高 TDP - 700W

额定 TDP - 500W

微软 Maia 100 系统采用垂直集成方式,以优化成本和性能。它还采用定制服务器板,配备专门设计的机架和软件堆栈,以提高性能。

Maia 100 SoC 架构

在这里插入图片描述
高速张量单元可为训练和推理提供高速处理,同时支持多种数据类型。该张量单元采用 16xRx16 结构。

矢量处理器是一个松散耦合的超标量引擎,采用定制指令集架构(ISA),支持包括 FP32 和 BF16 在内的多种数据类型。

直接内存访问(DMA)引擎支持不同的张量分片方案。

硬件 semaphores 支持 Maia 系统的异步编程。

为提高数据利用率和能效,大型 L1 和 L2 划痕垫采用软件管理。

Maia 100 采用基于以太网的互联技术和类似 RoCE 的定制协议,可实现超高带宽计算。它支持高达 4800 Gbps 的全收集和散射降低带宽,以及 1200 Gbps 的全对全带宽。

在软件方面,Maia 软件开发工具包(SDK)允许任何人快速将其 PyTorch 和 Triton 模型移植到 Maia。Maia SDK 为开发人员提供了多个组件,使他们能够轻松地将模型部署到 Azure OpenAI 服务。

开发人员可以选择两种编程模型来为 Maia 系统编程。他们既可以使用 Triton(一种用于深度神经网络 (DNN) 的流行开源特定领域语言 (DSL)),也可以使用 Maia API(一种 Maia 专用的定制编程模型,可通过更详细的控制实现最高性能)。此外,Maia 还原生支持 PyTorch 模型,开发人员只需更改一行即可执行 PyTorch 模型。

凭借其先进的架构、出色的开发者工具以及与 Azure 的深度集成,Maia 100 正在改变微软管理和执行人工智能工作负载的方式。微软 是否会像Google对其TPU和亚马逊对其Trainium和Inferentia芯片那样向第三方机构开放Maia 100加速器,还值得观察。

有关 Maia 100 的更多信息,请点击此处查看微软官方博文。

这篇关于微软分享其首款定制人工智能芯片Maia 100的更多细节的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1120615

相关文章

OpenCV在Java中的完整集成指南分享

《OpenCV在Java中的完整集成指南分享》本文详解了在Java中集成OpenCV的方法,涵盖jar包导入、dll配置、JNI路径设置及跨平台兼容性处理,提供了图像处理、特征检测、实时视频分析等应用... 目录1. OpenCV简介与应用领域1.1 OpenCV的诞生与发展1.2 OpenCV的应用领域2

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

C++链表的虚拟头节点实现细节及注意事项

《C++链表的虚拟头节点实现细节及注意事项》虚拟头节点是链表操作中极为实用的设计技巧,它通过在链表真实头部前添加一个特殊节点,有效简化边界条件处理,:本文主要介绍C++链表的虚拟头节点实现细节及注... 目录C++链表虚拟头节点(Dummy Head)一、虚拟头节点的本质与核心作用1. 定义2. 核心价值二

Go语言代码格式化的技巧分享

《Go语言代码格式化的技巧分享》在Go语言的开发过程中,代码格式化是一个看似细微却至关重要的环节,良好的代码格式化不仅能提升代码的可读性,还能促进团队协作,减少因代码风格差异引发的问题,Go在代码格式... 目录一、Go 语言代码格式化的重要性二、Go 语言代码格式化工具:gofmt 与 go fmt(一)

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Python虚拟环境与Conda使用指南分享

《Python虚拟环境与Conda使用指南分享》:本文主要介绍Python虚拟环境与Conda使用指南,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、python 虚拟环境概述1.1 什么是虚拟环境1.2 为什么需要虚拟环境二、Python 内置的虚拟环境工具

Python处理大量Excel文件的十个技巧分享

《Python处理大量Excel文件的十个技巧分享》每天被大量Excel文件折磨的你看过来!这是一份Python程序员整理的实用技巧,不说废话,直接上干货,文章通过代码示例讲解的非常详细,需要的朋友可... 目录一、批量读取多个Excel文件二、选择性读取工作表和列三、自动调整格式和样式四、智能数据清洗五、

JDK9到JDK21中值得掌握的29个实用特性分享

《JDK9到JDK21中值得掌握的29个实用特性分享》Java的演进节奏从JDK9开始显著加快,每半年一个新版本的发布节奏为Java带来了大量的新特性,本文整理了29个JDK9到JDK21中值得掌握的... 目录JDK 9 模块化与API增强1. 集合工厂方法:一行代码创建不可变集合2. 私有接口方法:接口

电脑系统Hosts文件原理和应用分享

《电脑系统Hosts文件原理和应用分享》Hosts是一个没有扩展名的系统文件,当用户在浏览器中输入一个需要登录的网址时,系统会首先自动从Hosts文件中寻找对应的IP地址,一旦找到,系统会立即打开对应... Hosts是一个没有扩展名的系统文件,可以用记事本等工具打开,其作用就是将一些常用的网址域名与其对应

SpringBoot请求参数接收控制指南分享

《SpringBoot请求参数接收控制指南分享》:本文主要介绍SpringBoot请求参数接收控制指南,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring Boot 请求参数接收控制指南1. 概述2. 有注解时参数接收方式对比3. 无注解时接收参数默认位置