数字存内计算与云边端具有广泛的应用场景深度剖析【根据中国移动研究院文献分析总结】

本文主要是介绍数字存内计算与云边端具有广泛的应用场景深度剖析【根据中国移动研究院文献分析总结】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 背景
  • 数字存内计算技术研究
    • 端侧应用场景
    • 边侧应用场景
    • 云侧应用场景
  • 总结
    • 参考文献:

背景

在这里插入图片描述

存内计算产品基于其不同的器件特性和计算方式,能够为云、边缘和端设备提供推理、训练等多种人工智能(AI)能力,从而提升运算效率、降低系统功耗以及设备成本。这些产品在不同的应用场景中发挥着关键作用。

  1. 推理能力提升: 存内计算产品在推理任务中展现出优越的性能。通过在存储器内部执行计算,避免了频繁的数据传输,从而大幅提升了推理任务的效率。这对于云端、边缘设备以及终端设备上运行的AI应用都具有重要的意义。

  2. 训练加速: 存内计算产品的设计有助于加速AI模型的训练过程。存储器内部的计算单元能够直接处理大规模的数据,减少了对外部计算资源的依赖,提高了训练效率。这对于需要在本地进行模型更新和训练的场景非常有益。

  3. 运算效率提升: 存内计算直接在存储器中完成计算,减少了数据在存储和计算单元之间的移动,从而提高了运算效率。这对于处理大规模数据集和复杂计算任务的场景尤为重要。

  4. 降低系统功耗: 存内计算的设计能够降低整个系统的功耗,因为它减少了数据传输的需求,避免了在存储和计算单元之间频繁读写数据的开销。这使得在边缘和端设备上运行的AI应用更为节能。

  5. 降低设备成本: 存内计算的技术可以使设备更为紧凑,同时减少了对外部计算资源的需求,从而有望降低整个设备的成本。这对于推动AI技术在广泛的设备中的采用具有积极的影响。

数字存内计算技术研究

数字存内计算通过在存储阵列内部加入逻辑计算电路,例如与门和加法器等,使得数字存内计算阵列具备存储和计算能力[5]。以下以静态随机存储器(Static Random-Access Memory,SRAM)为例,介绍数字存内计算的基本原理。

在数字存内计算中,输入数据是一个向量 [IN, IN, …, IN],这些数据依次存入存储单元。模型参数 [W, W, …] 存储在相应的存储单元中。通过控制存储器的读字线(Read WordLine, RWL),实现输入数据与存储单元内的模型参数进行乘法操作。然后,通过数字加法树(Digital Add Tree)实现累加,从而完成向量乘加运算。对于多个向量,可以重复以上过程,从而实现矩阵乘加计算。

需要注意的是,数字存内计算的存储单元只能存储单比特数据,并且由于需要增加部分传统逻辑电路,这在一定程度上限制了其面积和能效的优势。因此,当前业界多采用可兼容先进工艺的SRAM来实现数字存内计算。这样的设计可以更好地平衡存储和计算的需求,同时保持较高的集成度和能效。
在这里插入图片描述

端侧应用场景

在这里插入图片描述
根据IDC的预测,到2025年,全球物联网设备数量将超过400亿台,产生的数据量接近80ZB。在智慧城市、智能家居、自动驾驶等多个场景中,超过一半的数据需要依赖于终端本地处理。单个设备的算力需求预计将在0.1~64TOPS之间。此外,各种终端设备对运行时间、功耗、便携性等方面有较高要求,例如智能眼镜/耳机需要保证满负荷待机时间超过16小时,而手机的最高运行功耗不应超过8W。终端设备的未来发展将更加注重时延、功耗、成本和隐私性等需求特征。

与传统方案相比,存内计算在功耗和计算效率等方面具有显著优势。在相同制程工艺下,存内计算芯片能够在单位面积上提供更高的算力,更低的功耗,从而延长设备的工作时间。这使得存内计算在端侧具有广阔的应用前景,将广泛应用于家庭网关、工业网关、摄像头、可穿戴设备等场景。

目前,存内计算产品已经成功在端侧初步商用,为语音、视频等AI处理能力提供支持,并取得了十倍以上的能效提升。这有效地降低了端侧设备的成本,使得存内计算在应对未来大规模物联网设备挑战的同时,为各种终端应用提供了更为高效和可持续的解决方案。

边侧应用场景

在这里插入图片描述

随着云游戏、车联网等边缘计算应用的迅速发展,海量数据将在边缘进行处理,流量模型逐渐从云扩展到边缘。在边缘计算场景下,对单个设备的算力需求预计将在64256TOPS之间,同时对时延的要求非常高,例如智慧港口要求端到端时延在1020ms之间,而车联网场景要求端到端时延在3~100ms之间。此外,由于边缘设备通常部署在靠近数据生产或使用的场所,对散热性能的要求也相对较高。总体而言,边缘设备的未来发展将更加注重时延、功耗、成本和通用性等需求特征,如图3-2所示。

与传统方案相比,存算一体在深度学习等领域具有独特的优势,能够提供比传统设备高几十倍的算效比。此外,存内计算芯片通过架构创新,可以提供综合性能全面兼顾的芯片和板卡。预计存算一体将在边缘推理场景中得到广泛应用,为各种边缘AI业务提供服务。这种技术的应用有望在提高处理效率的同时,更好地满足边缘计算应用对时延、功耗、成本和通用性等多方面的要求。

云侧应用场景

在这里插入图片描述

以图像、语音、视频为主的非结构化数据正呈现高速增长趋势。根据IDC的预测,到2030年,这种趋势将推动智能算力需求增长500倍。以AI算力为核心的智算中心将成为算力基础设施的主流。然而,随着大规模AI芯片集约化建设的推进,高功耗成为一个严峻的挑战。每机架平均功耗预计将由35kW逐渐升至710kW。未来智算中心呼唤新型AI芯片,以满足云侧大算力、高带宽、低功耗等特性,如图3-3所示。

存内计算作为一种新型的AI芯片技术,通过多核协同集成大算力芯片,结合可重构设计构建通用计算架构。存内计算在智算中心的发展中扮演着重要的角色,作为下一代关键AI芯片技术,正持续演进以满足大算力、通用性、高计算精度等方面的需求。它有望为智算中心提供绿色、节能的大规模AI算力,有效缓解了传统建设方式所面临的功耗和散热问题,为未来的智能计算基础设施提供更为可持续和高效的解决方案。

总结

在这里插入图片描述

本文介绍了存内计算技术在推理、训练等人工智能任务中的优越性能,以及其在云、边缘和端设备上的应用场景。具体来说,存内计算在提升推理能力、加速训练过程、提高运算效率、降低系统功耗和设备成本方面取得显著成果。数字存内计算技术通过在存储阵列内部集成逻辑计算电路,如与门和加法器,使得存内计算阵列能够同时进行存储和计算操作。以静态随机存储器(SRAM)为例,文章详细解释了数字存内计算的基本原理。

在应用场景方面,存内计算在端侧、边侧和云侧都展现出广泛的潜力。在端侧,存内计算产品已经在语音、视频等AI处理能力方面取得商业成功,为各种终端设备提供高效且节能的解决方案。在边侧,存算一体在边缘推理场景中得到广泛应用,为边缘AI业务提供服务。在云侧,存内计算作为新型AI芯片技术,在智算中心的发展中发挥着关键作用,为大规模AI算力需求提供绿色、节能的解决方案。总体而言,存内计算技术为AI应用在不同场景中提供了高效、可持续和节能的计算支持。

参考文献:

本文根据中国移动研究院文献分析总结而来。

1.知存科技

2.中国移动研究院

这篇关于数字存内计算与云边端具有广泛的应用场景深度剖析【根据中国移动研究院文献分析总结】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/667548

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Nginx分布式部署流程分析

《Nginx分布式部署流程分析》文章介绍Nginx在分布式部署中的反向代理和负载均衡作用,用于分发请求、减轻服务器压力及解决session共享问题,涵盖配置方法、策略及Java项目应用,并提及分布式事... 目录分布式部署NginxJava中的代理代理分为正向代理和反向代理正向代理反向代理Nginx应用场景

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

Redis中的有序集合zset从使用到原理分析

《Redis中的有序集合zset从使用到原理分析》Redis有序集合(zset)是字符串与分值的有序映射,通过跳跃表和哈希表结合实现高效有序性管理,适用于排行榜、延迟队列等场景,其时间复杂度低,内存占... 目录开篇:排行榜背后的秘密一、zset的基本使用1.1 常用命令1.2 Java客户端示例二、zse

Redis中的AOF原理及分析

《Redis中的AOF原理及分析》Redis的AOF通过记录所有写操作命令实现持久化,支持always/everysec/no三种同步策略,重写机制优化文件体积,与RDB结合可平衡数据安全与恢复效率... 目录开篇:从日记本到AOF一、AOF的基本执行流程1. 命令执行与记录2. AOF重写机制二、AOF的

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

利用Python操作Word文档页码的实际应用

《利用Python操作Word文档页码的实际应用》在撰写长篇文档时,经常需要将文档分成多个节,每个节都需要单独的页码,下面:本文主要介绍利用Python操作Word文档页码的相关资料,文中通过代码... 目录需求:文档详情:要求:该程序的功能是:总结需求:一次性处理24个文档的页码。文档详情:1、每个