AI芯片:Edge TPU(谷歌出品)【在边缘(edge)设备上运行的“专用集成芯片”】【量化操作:Edge TPU使用8 位权重进行计算,而通常使用32位权重。所以我们应该将权重从32位转换为8位】

本文主要是介绍AI芯片:Edge TPU(谷歌出品)【在边缘(edge)设备上运行的“专用集成芯片”】【量化操作:Edge TPU使用8 位权重进行计算,而通常使用32位权重。所以我们应该将权重从32位转换为8位】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

谷歌Edge TPU的价格不足1000人民币,远低于TPU。实际上,Edge TPU基本上就是机器学习的树莓派,它是一个用TPU在边缘进行推理的设备。

在这里插入图片描述

一、云vs边缘

1、边缘运行没有网络延迟

Edge TPU显然是在边缘(edge)运行的,但边缘是什么呢?为什么我们不选择在云上运行所有东西呢?

在这里插入图片描述
在云中运行代码意味着使用的CPU、GPU和TPU都是通过浏览器提供的。边缘与云相反,即在本地运行代码。在边缘运行代码的主要优点是没有网络延迟,由于物联网设备通常要频繁地生成数据,因此运行在边缘上的代码非常适合基于物联网的解决方案。

二、对比CPU、GPU,深度剖析TPU

TPU直接提供传递信息,减少延迟

TPU是类似于CPU或GPU的一种处理器。不过,它们之间存在很大的差异。

最大的区别是TPU是 ASIC(专用集成芯片)。ASIC经过优化,可以执行特定类型的应用程序。

对于TPU来说,它的特定任务就是执行神经网络中常用的乘积累加运算。

CPU和GPU并未针对特定类型的应用程序进行优化,因此它们不是ASIC。

下面我们分别看看 CPU、GPU和TPU如何使用各自的架构执行累积乘加运算:

1、在CPU上进行累积乘加运算

CPU通过从内存中读取每个输入和权重,将它们与其ALU (上图中的计算器) 相乘,然后将它们写回内存中,最后将所有相乘的值相加,从而执行乘积累加运算。

在这里插入图片描述

现代CPU通过其每个内核上的大量缓存、分支预测和高时钟频率得到增强。这些都有助于降低CPU的延迟。

2、GPU上的乘积累加运算(通过并行计算来大幅提高吞吐量,代价是延迟增加)

GPU的原理类似,但它有成千上万的ALU来执行计算。计算可以在所有ALU上并行进行,这被称为 SIMD (单指令流多数据流)。

在这里插入图片描述

一个很好的例子就是神经网络中的多重加法运算。

然而,GPU 并不使用上述那些能够降低延迟的功能。它还需要协调它的数千个 ALU,这进一步减少了延迟。

简而言之,GPU 通过并行计算来大幅提高吞吐量,代价是延迟增加。

或者换句话说:CPU是一个强大而训练有素的斯巴达战士,而GPU就像一支庞大的农民大军,但农民大军可以打败斯巴达战士,因为他们人多。

3、读取TPU上的乘加操作的权重

TPU的运作方式非常不同,它的ALU是直接相互连接的,不需要使用内存。

它们可以直接提供传递信息,从而大大减少延迟。

在这里插入图片描述

从上图中可以看出,神经网络的所有权重都被加载到ALU中。完成此操作后,神经网络的输入将加载到这些ALU中以执行乘积累加操作。

神经网络的所有输入并不是同时插入ALU的,而是从左到右逐步地插入,这样做是为了防止内存访问。因为ALU的输出将传播到下一个ALU,这都是通过脉动阵列 (systolic array) 的方式完成的,如下图所示。

使用脉动阵列执行乘加操作:

在这里插入图片描述
上图中的每个灰色单元表示TPU中的一个ALU (其中包含一个权重),在ALU 中,乘加操作是通过将ALU从顶部得到的输入乘以它的权重,然后将它与从左边得到的值相加。此操作的结果将传播到右侧,继续完成乘加操作。ALU从顶部得到的输入被传播到底部,用于为神经网络层中的下一个神经元执行乘加操作。

在每一行的末尾,可以找到层中每个神经元的乘加运算的结果,而不需要在运算之间使用内存,使用这种脉动阵列显著提高了Edge TPU的性能。

三、Edge TPU 推理速度超过其他处理器架构

1、使用量化和更少的内存操作,高速且环保

TPU 还有一个重要步骤是量化 (quantization)。

由于谷歌的Edge TPU使用8 位权重进行计算,而通常使用32位权重。所以我们应该将权重从32位转换为8位,这个过程叫做量化。

量化基本上是将更精确的32位数字近似到8位数字。量化过程如下图所示:

在这里插入图片描述

四舍五入会降低精度,然而,神经网络具有很好的泛化能力 (例如dropout)。因此在使用量化时不会受到很大的影响,如下图所示。

非量化模型与量化模型的精度:
在这里插入图片描述
量化的优势更为显著,它减少了计算量和内存需求,从而提高了计算的能源效率。

Edge TPU执行推理的速度比任何其他处理器架构都要快。它不仅速度更快,而且通过使用量化和更少的内存操作,从而更加环保。




参考资料:
从云到端,进阶的谷歌AI芯片Edge TPU到底有多快?

这篇关于AI芯片:Edge TPU(谷歌出品)【在边缘(edge)设备上运行的“专用集成芯片”】【量化操作:Edge TPU使用8 位权重进行计算,而通常使用32位权重。所以我们应该将权重从32位转换为8位】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128717

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

Linux join命令的使用及说明

《Linuxjoin命令的使用及说明》`join`命令用于在Linux中按字段将两个文件进行连接,类似于SQL的JOIN,它需要两个文件按用于匹配的字段排序,并且第一个文件的换行符必须是LF,`jo... 目录一. 基本语法二. 数据准备三. 指定文件的连接key四.-a输出指定文件的所有行五.-o指定输出

Linux jq命令的使用解读

《Linuxjq命令的使用解读》jq是一个强大的命令行工具,用于处理JSON数据,它可以用来查看、过滤、修改、格式化JSON数据,通过使用各种选项和过滤器,可以实现复杂的JSON处理任务... 目录一. 简介二. 选项2.1.2.2-c2.3-r2.4-R三. 字段提取3.1 普通字段3.2 数组字段四.

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本,并kill2.1 进程查看2.2 遇到的

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

k8s按需创建PV和使用PVC详解

《k8s按需创建PV和使用PVC详解》Kubernetes中,PV和PVC用于管理持久存储,StorageClass实现动态PV分配,PVC声明存储需求并绑定PV,通过kubectl验证状态,注意回收... 目录1.按需创建 PV(使用 StorageClass)创建 StorageClass2.创建 PV

Redis 基本数据类型和使用详解

《Redis基本数据类型和使用详解》String是Redis最基本的数据类型,一个键对应一个值,它的功能十分强大,可以存储字符串、整数、浮点数等多种数据格式,本文给大家介绍Redis基本数据类型和... 目录一、Redis 入门介绍二、Redis 的五大基本数据类型2.1 String 类型2.2 Hash

Redis中Hash从使用过程到原理说明

《Redis中Hash从使用过程到原理说明》RedisHash结构用于存储字段-值对,适合对象数据,支持HSET、HGET等命令,采用ziplist或hashtable编码,通过渐进式rehash优化... 目录一、开篇:Hash就像超市的货架二、Hash的基本使用1. 常用命令示例2. Java操作示例三

Linux创建服务使用systemctl管理详解

《Linux创建服务使用systemctl管理详解》文章指导在Linux中创建systemd服务,设置文件权限为所有者读写、其他只读,重新加载配置,启动服务并检查状态,确保服务正常运行,关键步骤包括权... 目录创建服务 /usr/lib/systemd/system/设置服务文件权限:所有者读写js,其他