AI的“高度近视”有何破解之法?深度学习加速技术让“人工智障”戴上眼镜

本文主要是介绍AI的“高度近视”有何破解之法?深度学习加速技术让“人工智障”戴上眼镜,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【导读】

「是什么黑科技,成全了AI又快又准又省的心愿?」

有什么比秃头更心酸的吗?

有,比如智能机器人将秃了的后脑勺识别成未戴口罩的脸,跟随一路提醒佩戴口罩。

如今AI应用已非常普遍,这过程中也收获了不少“人工智障”的笑话,上述只是其中一个,除了离谱的图像自动识别,还有答非所问的智能对话。

自迎来以深度学习为代表的第三次发展浪潮,人工智能技术已被广泛应用在目标检测、图像识别、自然语言处理(NLP)等场景,从语音识别、自动送餐机器人到生产线影像监控,AI的身影无处不在。

客户的业务需求与创新应用对AI推理和训练的效率和质量都提出了更为严格的要求,推动人工智能发展从三个方面——数据、算力、算法都需要进一步调优和高效。

两全其美之事已是世间难得,倘若想要在一件事上达到“三全”,着实有些困难且“贪心”。

但踏平“人工智障”,真的需要“贪心”一些。

数据精度、存储空间、处理速度,发展AI必须三者共同进步

数据、算力和算法之间存在一些原生矛盾。

通常来说,数据类型的宽度越大,能表达的动态范围和精度也就越高。

更大的动态范围和更高的精度意味着更多的存储空间,譬如FP32就需要FP16两倍的内存占用,并给内存带宽带来成倍的压力,对算力带来挑战。

同时算法层面,尽管深度学习是人工智能(AI)近几年重新走红的功臣,也是吞噬算力的巨大 “黑洞”。

这三者平衡起来依然也会存在困难,从数据类型的层面,要节省存储空间就需要做出一定的让步或牺牲,例如,Google为加速AI深度学习而引入的BFloat16(BF16)数据类型,用FP16的数据宽度实现了与FP32相当的动态范围,其代价是精度有所降低。

这只是解决了一方面,但如果实现“既准,又省,还快”三重快乐AI,三大要素必须共同发力:简化数据,强化算力,优化算法。

英特尔深度学习加速技术:准、省、快,低精度成就高效率!

算法上的革新是重中之重。

如同上述所说,大多数深度学习应用在其训练和推理工作负载中多采用 32 位浮点精度(FP32),尽管精度高但占用更大内存,进而影响计算效率。

当数据格式由 FP32 转为 8 位整数(INT8)或 16 位浮点数(BF16)时,内存可以移动更多的数据量,进而更大化地利用计算资源。

图说:不同数据格式对内存利用率的影响

这种精度的降低会对数据处理的准确率造成影响吗?

答案是:并不会,或者说影响微乎其微。

近年来已有众多研究和实践表明,以较低精度的数据格式进行深度学习训练和推理,并不会对结果的准确性带来太多影响,譬如BF16用于训练,INT8用于推理,能够将准确率的损失降至最低,甚至完全没有损失。

而低精度数据格式带来的优势,也不仅在于提升内存利用效率,在深度学习常见的乘法运算上,它也能减少处理器资源消耗并实现更高的操作速度(OPS)。

算法的升级助力了“准”和“省”的达标,但“快”的层面还略有些差强人意。

为了保证推理过程中的精度,在CPU的向量处理单元中进行矩阵运算的时候,先将8位值相乘再累加到32位,需要3条指令来完成,代价是3倍的指令数,这也导致峰值运算性能只提高了33%。

那么“提速”任务就交给了算力单元。

英特尔® 深度学习加速(英特尔®Deep Learning Boost,简称DL Boost)技术的精髓,就是把对低精度数据格式的操作指令融入到了 AVX-512 指令集中, AVX-512_VNNI (Vector Neural Network Instruction,矢量神经网络指令) 和 AVX-512_BF16(bfloat16),分别提供了对 INT8(主打推理)和 BF16(兼顾推理和训练)的支持。

英特尔® 深度学习加速技术带来训练和推理效率提升
 

至此,英特尔® DL Boost技术可以让人工智能达到三全,即:

  • 省:简化数据,提高内存容量和带宽的利用率,缓解内存压力;
  • 准:优化算法,模型量化使用较低的数值精度也能保证结果的准确性,特别是推理应用;
  • 快:强化算力,避免增加额外操作,保证性能与内存利用率同步提升。

推理与训练,硬件加速双管齐下

如同一条道路上,通过车辆的体型变小(简化后的数据),通过的车辆数量自然就上来了。

两种新的、针对 AI 应用的 AVX-512 指令集使道路(寄存器)上通过了更多的 车辆(数据量),新的指令集无疑能使计算效率获得大幅提升。

点击此处回顾英特尔AVX指令集的前世今生《这项15年前的「超前」技术设计,让CPU在AI推理时代大放光彩》

这两种不同指令集的优势也有所不同。

从代号Cascade Lake的英特尔第二代至强可扩展处理器开始,AVX-512指令集就增加了VNNI,用一条FMA指令就可以完成8位乘法再累加到32位的操作。

2020 年问世的第三代英特尔® 至强® 可扩展处理器已集成了英特尔® 深度学习加速技术这两种 AI 加速指令集,并被广泛运用于商业深度学习应用的训练和推理过程。

在指令集的支持下,简化数据的同时避免了额外的开销,让性能可以获得与内存利用率一致的提升。AVX-512_VNNI 使用INT8做推理,对比使用FP32,理论上可以获得4倍的性能,而将内存要求降至 ¼。

内存的减少和频率的提高加快了低数值精度运算的速度,最终加速 AI 和深度学习推理,适合图像分类、语音识别、语音翻译、对象检测等众多方面。

而AVX-512_BF16 的优势是既可以用于推理,也可以用于训练,能帮助训练性能提升达 1.93 倍。代号Cooper Lake的英特尔第三代至强可扩展处理器就集成了bfloat16加速功能,在与FP32相似的精度下,提升性能和内存利用率。

软硬协同设立“AI改造车间”,CPU多场景应用优势尽显

算力、算法、数据如今都有各自标准以及解决办法,当三者形成完整闭环时,如何让整个流程的效率更上一层?

依然还有可以继续进步的地方,那就是:AI 应用原生的数据格式并不统一的情况下,如何高效的把大量采用传统FP32数据格式的AI模型转换成BF16或INT8格式使用。

由英特尔推出的 OpenVINO™ 工具套件提供了模型量化功能,为上述问题提供了应对良方。

它能让基于不同 AI 框架,如 TensorFlow、MXNet、PyTorch 等构建的 FP32 数据格式 AI 模型,在损失很少精度的情况下转化为 INT8 和 BF16 数据格式。

除模型量化功能外,针对一系列 AI 应用场景,如视觉模拟、自动语音识别、自然语言处理及推荐系统等,OpenVINO™ 工具套件还提供了能提升它们开发和部署效率的组件,例如 OpenVINO™ Model Server 和 OpenVINO™ Model Zoo 等组件可对基于 TensorFlow、PyTorch、MxNet、Keras 等不同框架构建的训练模型实施更为高效的优化,并简化这些模型部署的流程及耗时。

AI应用场景颇多,那何种场景更能突显AVX-512_BF16等深度学习加速技术的优势?

例如在医疗影像此类重视准确性多过于实时性的场景中,汇医慧影在乳腺癌影像分析场景中引入了集成有英特尔® 深度学习加速技术的第二代英特尔® 至强® 可扩展处理器,配合 OpenVINO™ 工具套件,在对检测模型进行了 INT8 转换和优化后,推理速度较原始方案提升高达 8.24 倍,且精确度损失不到 0.17%。

企业启动构建AI应用,改弦更张并非性价比之选,可以充分评估既有的数据存储、处理和分析平台,如此一来,基于又准又快又省的CPU,或借助它构建和部署符合自身需求的AI应用。

更何况,CPU自身的AI能力也在不断进化中,即将发布的代号为Sapphire Rapids的英特尔第四代至强可扩展处理器,就加入了简称AMX的高级矩阵扩展(Advanced Matrix Extensions)技术。

AMX是新的x86扩展,具有自己的存储和操作,主要针对AI领域非常重要的平铺矩阵乘法,比前两种DL Boost的实现更为复杂,那效果呢?我们(带上显微镜)拭目以待吧~

点击链接:https://www.intel.cn/content/www/cn/zh/artificial-intelligence/deep-learning-boost.html,了解更多深度学习加速技术。

这篇关于AI的“高度近视”有何破解之法?深度学习加速技术让“人工智障”戴上眼镜的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/403794

相关文章

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java MCP 的鉴权深度解析

《JavaMCP的鉴权深度解析》文章介绍JavaMCP鉴权的实现方式,指出客户端可通过queryString、header或env传递鉴权信息,服务器端支持工具单独鉴权、过滤器集中鉴权及启动时鉴权... 目录一、MCP Client 侧(负责传递,比较简单)(1)常见的 mcpServers json 配置

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解(高频使用)三、clean生命周期核心阶

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

深度解析Python yfinance的核心功能和高级用法

《深度解析Pythonyfinance的核心功能和高级用法》yfinance是一个功能强大且易于使用的Python库,用于从YahooFinance获取金融数据,本教程将深入探讨yfinance的核... 目录yfinance 深度解析教程 (python)1. 简介与安装1.1 什么是 yfinance?

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具:字符串方法与序列匹配二、正则表达式:模式匹配的瑞士军刀2.1 re模块核心AP

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.