AI芯片：Edge TPU（谷歌出品）【在边缘（edge）设备上运行的“专用集成芯片”】【量化操作：Edge TPU使用8 位权重进行计算，而通常使用32位权重。所以我们应该将权重从32位转换为8位】

本文主要是介绍AI芯片：Edge TPU（谷歌出品）【在边缘（edge）设备上运行的“专用集成芯片”】【量化操作：Edge TPU使用8 位权重进行计算，而通常使用32位权重。所以我们应该将权重从32位转换为8位】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

谷歌Edge TPU的价格不足1000人民币，远低于TPU。实际上，Edge TPU基本上就是机器学习的树莓派，它是一个用TPU在边缘进行推理的设备。

在这里插入图片描述

一、云vs边缘

1、边缘运行没有网络延迟

Edge TPU显然是在边缘（edge）运行的，但边缘是什么呢？为什么我们不选择在云上运行所有东西呢？

在这里插入图片描述
在云中运行代码意味着使用的CPU、GPU和TPU都是通过浏览器提供的。边缘与云相反，即在本地运行代码。在边缘运行代码的主要优点是没有网络延迟，由于物联网设备通常要频繁地生成数据，因此运行在边缘上的代码非常适合基于物联网的解决方案。

二、对比CPU、GPU，深度剖析TPU

TPU直接提供传递信息，减少延迟

TPU是类似于CPU或GPU的一种处理器。不过，它们之间存在很大的差异。

最大的区别是TPU是 ASIC（专用集成芯片）。ASIC经过优化，可以执行特定类型的应用程序。

对于TPU来说，它的特定任务就是执行神经网络中常用的乘积累加运算。

CPU和GPU并未针对特定类型的应用程序进行优化，因此它们不是ASIC。

下面我们分别看看 CPU、GPU和TPU如何使用各自的架构执行累积乘加运算：

1、在CPU上进行累积乘加运算

CPU通过从内存中读取每个输入和权重，将它们与其ALU (上图中的计算器) 相乘，然后将它们写回内存中，最后将所有相乘的值相加，从而执行乘积累加运算。

在这里插入图片描述

现代CPU通过其每个内核上的大量缓存、分支预测和高时钟频率得到增强。这些都有助于降低CPU的延迟。

2、GPU上的乘积累加运算（通过并行计算来大幅提高吞吐量，代价是延迟增加）

GPU的原理类似，但它有成千上万的ALU来执行计算。计算可以在所有ALU上并行进行，这被称为 SIMD (单指令流多数据流)。

在这里插入图片描述

一个很好的例子就是神经网络中的多重加法运算。

然而，GPU 并不使用上述那些能够降低延迟的功能。它还需要协调它的数千个 ALU，这进一步减少了延迟。

简而言之，GPU 通过并行计算来大幅提高吞吐量，代价是延迟增加。

或者换句话说：CPU是一个强大而训练有素的斯巴达战士，而GPU就像一支庞大的农民大军，但农民大军可以打败斯巴达战士，因为他们人多。

3、读取TPU上的乘加操作的权重

TPU的运作方式非常不同，它的ALU是直接相互连接的，不需要使用内存。

它们可以直接提供传递信息，从而大大减少延迟。

在这里插入图片描述

从上图中可以看出，神经网络的所有权重都被加载到ALU中。完成此操作后，神经网络的输入将加载到这些ALU中以执行乘积累加操作。

神经网络的所有输入并不是同时插入ALU的，而是从左到右逐步地插入，这样做是为了防止内存访问。因为ALU的输出将传播到下一个ALU，这都是通过脉动阵列 (systolic array) 的方式完成的，如下图所示。

使用脉动阵列执行乘加操作：

在这里插入图片描述
上图中的每个灰色单元表示TPU中的一个ALU (其中包含一个权重)，在ALU 中，乘加操作是通过将ALU从顶部得到的输入乘以它的权重，然后将它与从左边得到的值相加。此操作的结果将传播到右侧，继续完成乘加操作。ALU从顶部得到的输入被传播到底部，用于为神经网络层中的下一个神经元执行乘加操作。