HBM学习总结

2024-02-07 01:50
文章标签 学习 总结 hbm

本文主要是介绍HBM学习总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

HBM :High Bandwidth Memory 高带宽存储器
主要作为GPU显存芯片(一般在高端产品中,比如nv面向数据中心的GPU,A100),也作为部分CPU的内存芯片(目前HPC芯片中有应用到,富岳中的A64FX)

HBM将多个DDR芯片堆叠在一起,所以也是个3D结构;每个die之间通过TVS和microbump方式连接;除了堆叠的DRAM die以外,下层会有个HBM控制器逻辑die。然后最下层通过base die(比如说硅中介silicon interposer),来与CPU/GPU等互联。
TVS:硅穿孔技术,让 HBM DRAM 颗粒能够堆叠起来, 好比让每一层都有自己独立的电梯(引脚)。

从侧面来看HBM,来源:AMD

HBM优势:高速、高带宽、高位宽

从这种结构就不难发现,其互联宽度是远大于DDR/GDDR的,下方互联的触点数量可远远多于DDR内存连接到CPU的线路数量。HBM2的PHY接口实施规模,和DDR接口不在一个层面上;HBM2的连接密度高出太多。从传输位宽的角度来看,每层DRAM die是2个128bit通道,4层DRAM die高度的HBM内存总共就是1024bit位宽。很多GPU、CPU周围都有4片这样的HBM内存(如下图),则总共位宽就是4096bit。

作为对比,GDDR5内存每通道位宽32bit,16通道的话总共就是512bit;DDR4的总位宽就更不用多谈了。事实上,现在主流的第二代HBM2每个堆栈可以堆至多8层DRAM die,在容量和速度方面又有了提升。HBM2的每个堆栈支持最多1024个数据pin,每pin的传输速率可以达到2000Mbit/s,那么总带宽就是256Gbyte/s;在2400Mbit/s的每pin传输速率之下,一个HBM2堆栈封装的带宽就是307Gbyte/s。

上图是一个DDR、LPDDR、GDDR和HBM的对比,可以看出在Max I/F BW 上HBM2与其他的技术对比完全不是一个量级。其次看上面的平面图可以看出,HBM与主芯片(CPU/GPU)的位置靠的很近,理论上可以获得更高的传输效率。

高带宽、高延迟这个特性,决定了HBM是非常适用于作为GPU显存的,因为游戏、图形处理本身就是较大程度可预测的高并发工作任务。这类负载的特点就是需要高带宽,而对延迟并没有那么敏感。所以HBM会出现在高端GPU产品上。根据这个道理,其实也决定了HBM非常适合HPC高性能计算、AI计算,所以A64FX和下一代至强处理器虽然是CPU,但也会选择考虑用HBM作内存。

但对于个人电脑来说,CPU要处理的任务具有极大的不可预测性,要求各种随机存储访问,对延迟天生有着更高的敏感度;而且对低延迟的要求往往还高于对高带宽的要求。更何况HBM成本也很高。这就决定了至少就短期来看,HBM很难在PC上替代DDR。似乎这个问题也和GDDR是否可应用于PC内存是类似的。

HBM缺点

主要说的是HBM应用在PC中的一些缺点

可扩展性不高

这里说的可扩展性问题说的是在个人pc上使用场景。HBM芯片一般是和主芯片整合在一块芯片上的,这会降低其灵活性。一般pc内存容量的扩展是个比较常规的能力。

容量偏小

HBM的第二个问题就是,内存容量相比DDR会更受局限。虽说一片HBM封装就可以堆8层DRAM die,但实际上每层也就8Gbit,那么8层就是8GByte。像A64FX这种超算芯片留4个HBM接口,也就是4个HBM堆栈封装,则一颗芯片也就是总共32GByte容量。

这样的容量,在DDR面前还是太小了。消费市场上普通PC要堆大于32GByte的内存真的太常见了。不仅是PC、服务器主板上可扩展的内存插槽一大堆,某些DDR4/5 DIMMs内存颗粒也在搞DRAM die的堆叠。采用比较高端的DRAM die堆叠,2-rank的RDIMM(registered DIMMs)就能做到128GByte容量——考虑高端服务器96个DIMM插槽,那就是至多12TByte的容量。

当然了,HBM和DDR可以混合着一起用,HBM2负责高带宽但小容量,DDR4负责稍低的带宽但大容量。从系统设计的角度来说,HBM2内存在处理器这里就更像是L4 cache了。

访问延迟高

对于PC而言,HBM一直都没有应用于CPU主内存的一个重要原因在于其延迟很高。

当代的DDR内存,在规格上普遍也都会标CL(CAS延迟,列寻址所需的时钟周期,表示读取延迟的长短)。这里我们所说的CAS延迟,是指从读取指令(与Column Address Strobe)发出,到数据准备就绪的过程,中间的一个等待时间。

在内存控制器告诉内存,需要访问某个特定位置的数据后,需要若干个周期的时间以后才能抵达该位置并执行控制器发出的指令。CL是内存延迟中最重要的参数。就延迟长短来说,这里的“周期”其实还需要乘以每周期的时间(越高的整体工作频率,则表明每周期时间越短)。

对于HBM而言,如前所述其特性之一就是互联宽度超宽(或者说并行的传输线路超多,虽然市面上似乎也有更低位宽的版本),这就决定了HBM的传输频率不能太高,否则总功耗和发热撑不住(而且也并不需要那么高的总带宽)。

HBM的频率的确会比DDR/GDDR低很多,三星此前的Flarebolt HBM2内存每pin的传输带宽是2Gbit/s,差不多是1GHz的频率;后来有加压提频到1.2GHz的产品。三星当时提到这个过程还需要考虑降低超过5000个TSV之间的并行时钟干扰;而且要增加DRAM die之间的散热bump数量,来缓解发热问题。上图中AMD在列出HBM的频率其实才500MHz。

此前浙江大学、苏黎世联邦理工学院有发一篇题为Benchmarking High Bandwidth Memory on FPGA的paper。这篇paper主要是研究HBM在FPGA上的细节特性,以及如何基于这些特性来提高FPGA的工作效率。这项研究是基于赛灵思的Alveo U280进行的——这款FPGA之上就带两个堆栈的HBM子系统。


来源:Benchmarking High Bandwidth Memory on FPGA

这篇paper特别提到了:“HBM延迟远高于DDR4。HBM芯片与对应FPGA的连接是通过串行I/O连接进行的,需要针对并行-串行-并行转换的处理。”上面这张表是这项研究中呈现的HBM与DDR4闲时内存访问延迟,这里的page hit是指在内存列访问之前不需要Precharge和Activate指令(行访问时,bank处于open状态),可达成最小延迟的状态。page closed/miss等详情可以参见paper原文。


来源:Benchmarking High Bandwidth Memory on FPGA

可能从系统的角度来看,Alveo U280存在一定的特殊性,不过应该还是能够说明问题的。这里面的每个HBM堆栈都分成了8个独立的内存通道(前面提到的叠4层DRAM die),每个内存通道又进一步切分成了2个64bit的伪通道(pseudo channels)。好像其他包含HBM的系统也是类似的构成方式。

在总共16条内存通道之上,有32个AXI通道与用户逻辑做交互:每个AXI通道提供面向FPGA编程的标准接口,每个AXI通道只允许访问各自的内存区域。为了让每条AXI通道都能访问完整的HBM空间,赛灵思引入了通道之间的switch——后面具体的就不再深入了,可能往上是更具FPGA特殊性的设计。网上还有更多针对HBM延迟的研究。

更宽的位宽,以及更复杂的系统始终是造成HBM访问延迟更高的重要因素。

这篇关于HBM学习总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_51613968/article/details/126584013
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/686189

相关文章

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

Linux区分SSD和机械硬盘的方法总结

《Linux区分SSD和机械硬盘的方法总结》在Linux系统管理中,了解存储设备的类型和特性是至关重要的,不同的存储介质(如固态硬盘SSD和机械硬盘HDD)在性能、可靠性和适用场景上有着显著差异,本文... 目录一、lsblk 命令简介基本用法二、识别磁盘类型的关键参数:ROTA查询 ROTA 参数ROTA

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Windows Docker端口占用错误及解决方案总结

《WindowsDocker端口占用错误及解决方案总结》在Windows环境下使用Docker容器时,端口占用错误是开发和运维中常见且棘手的问题,本文将深入剖析该问题的成因,介绍如何通过查看端口分配... 目录引言Windows docker 端口占用错误及解决方案汇总端口冲突形成原因解析诊断当前端口情况解

java常见报错及解决方案总结

《java常见报错及解决方案总结》:本文主要介绍Java编程中常见错误类型及示例,包括语法错误、空指针异常、数组下标越界、类型转换异常、文件未找到异常、除以零异常、非法线程操作异常、方法未定义异常... 目录1. 语法错误 (Syntax Errors)示例 1:解决方案:2. 空指针异常 (NullPoi

Java反转字符串的五种方法总结

《Java反转字符串的五种方法总结》:本文主要介绍五种在Java中反转字符串的方法,包括使用StringBuilder的reverse()方法、字符数组、自定义StringBuilder方法、直接... 目录前言方法一:使用StringBuilder的reverse()方法方法二:使用字符数组方法三:使用自

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Python依赖库的几种离线安装方法总结

《Python依赖库的几种离线安装方法总结》:本文主要介绍如何在Python中使用pip工具进行依赖库的安装和管理,包括如何导出和导入依赖包列表、如何下载和安装单个或多个库包及其依赖,以及如何指定... 目录前言一、如何copy一个python环境二、如何下载一个包及其依赖并安装三、如何导出requirem