Transformer从零详细解读

2024-09-08 00:12

文章标签 transformer 解读详细

本文主要是介绍Transformer从零详细解读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Transformer从零详细解读

一、从全局角度概况Transformer

我们把TRM想象为一个黑盒，我们的任务是一个翻译任务，那么我们的输入是中文的“我爱你”，输入经过TRM得到的结果为英文的“I LOVE YOU”

接下来我们对TRM进行细化，我们将TRM分为两个部分，分别为Encoders（编码器）和Decoders（解码器）

在此基础上我们再进一步细化TRM的结构：

这里不一定是6个encoder和6个decoder，但是每个encoder之间的结构都是相同的，但是参数上并不相同，在训练的时候并不是只训练一个encoders，而是每个encoders都在训练。
我们再看一下TRM原论文中的结构图：

N是自己确定的数字，encoders和decoders之间的结构很不相同。

二、位置编码详细解读

我们将encoder部分提取出来看，我们将encoder分为以下三个部分：

我们先看输入部分，输入部分分为：

Embedding

embedding的操作方法就是：假如现在输入12个字，每个字用一个512维度的向量表示，那么这12个字展开后就是一个12*512的二维矩阵。矩阵的每个位置有两种初始化方式，一种是随机初始化，另一种是wordtovector方式。
位置编码

我们从RNN结构来引入位置编码：

对于RNN的所有的timesteps都共享同一套参数（U,W,V），例如右图上的“我”，“爱”，“你”在展开以后，使用的都是同一套参数（U,W,V）。

面试题：RNN的梯度消失和普通网络的梯度消失有什么区别？
RNN的梯度是一个总的梯度和，它的梯度消失并不是变为0，而是总的梯度被近距离梯度主导，被远距离梯度忽略不计。

1.位置编码公式：

2i代表偶数，在偶数位置使用sin，在2i+1奇数的位置使用cos，就比如我爱你中的爱这个字，进行展开，其中的偶数位置使用sin表达式，奇数位置使用cos表达式。得到展开式以后：

我们把字向量他们原本位置上的值与他们的位置编码相加，得到一个最终的512的维度的向量，作为TRM的输入。

2.为什么位置编码是有用的

我们看下图中的推导，正余弦位置函数，这个体现出的是一种绝对位置信息。

以“我爱你”为例，pos+k 代表“你”，pos代表“我”，k代表“爱”，也就是说，“我爱你”中的“你”，可以被“我”和“爱” 线性组合起来，这样的线性组合就意味着绝对的位置向量中蕴含了相对位置信息。但是这种相对位置信息会在注意力机制那里消失。

三、多头注意力机制

1.基本的注意力机制

我们看下图：

我们在看一张图的时候，一张图像总有一些部分是我们特别关注的地方。我们想通过一种方式得到“婴儿在干嘛”这句话与图像中的哪部分区域更加关注/相似，这就是注意力机制的一种形式。

计算公式：

我们举一个例子，就拿上面的例子为例，我们通过计算来判断下“婴儿在干嘛”这句话与图片中的哪部分区域更加相似，看下图：

我单抽出婴儿这个单词，我们将区域分为四个部分，我们将“婴儿”作为q向量，四个区域分别对应K向量，和他们各自的V向量。我们判断“婴儿”与四个区域点乘的结果哪个是最大的，最大就代表了最相似。

我们再举一个词与词的例子：

我们的计算步骤如下图：

在只有单词向量的情况下，如何获取QKV

简单来说就是x1与WQ得到q1，，，行列分别相乘。

2.计算QK相似度，得到attention值

为什么要除以根号dk，q与k相乘值很大，softmax在反向传播的时候值很小，梯度会消失。在实际代码使用矩阵，方便并行。

3.多头注意力机制

多头，相当于把原始数据打到了多个不同的空间，保证TRM捕获到不同空间中的多种信息。

最后，我们将多套QKV计算得到的结果通过一次矩阵计算进行合并，这样就可以得到我们多头注意力的输出。

四、残差详解

1.什么是残差网络

残差的原则就是输出至少不比输入差！多进行一个加法操作。

我们可以再看一个很经典的图：

2.残差网络的数学推导

五、Batch Normal详解

BN的效果差，所以不用。再nlp中，很少使用BN，大多使用LN。

1.什么是BN，以及使用场景

我们看下面一张图：

每一行代表一个特征，每个人的“体重，身高”等指标，每个人的第一个特征都是“体重”。x1，x2分别代表不同的人。

2.BN的优点

可以解决内部协变量偏移
缓解了梯度饱和问题（如果使用sigmoid激活函数的话），加快收敛

3.BN的缺点

batch_size较小的时候，效果差，局部的方差并不能代表全局
BN再RNN中效果差，我们看下面的例子：前9个句子只有5个向量，但是第10个句子的长度达到20个向量的，这样导致第6到20维无法做BN，从而导致BN在RNN的处理中效果差

六、Layer Normal详解

1.如何理解LN

理解：为什么LayerNorm单独对一个样本的所有单词做缩放可以起到效果。

我们如果把BN引申到RNN，下面这张图则表示“我”和“今”是同一层的语义信息，，，“爱“和”天“是一层语义信息里面。

而在LN中，我们认为这两段话每段话都是分别的一个语义信息。

2.前馈神经网络

七、Decoder详解

1.多头注意力机制

2.为什么需要mask

如果我们没有mask去训练的时候，我们在训练you的时候，所有的单词都对you做出了贡献。这样会导致训练和预测是不对等的。

正确的做法是：

3.交互层

我们再来看一下交互层，在交互层我们需要注意的是encoder的输出需要和每一个decoder做交互。

这篇关于Transformer从零详细解读的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1146562。 23002807@qq.com

相关文章

Linux jq命令的使用解读

Linux jq命令的使用解读

《Linuxjq命令的使用解读》jq是一个强大的命令行工具,用于处理JSON数据,它可以用来查看、过滤、修改、格式化JSON数据,通过使用各种选项和过滤器,可以实现复杂的JSON处理任务... 目录一. 简介二. 选项2.1.2.2-c2.3-r2.4-R三. 字段提取3.1 普通字段3.2 数组字段四.

阅读更多...

MySQL之搜索引擎使用解读

MySQL之搜索引擎使用解读

《MySQL之搜索引擎使用解读》MySQL存储引擎是数据存储和管理的核心组件,不同引擎（如InnoDB、MyISAM）采用不同机制,InnoDB支持事务与行锁,适合高并发场景；MyISAM不支持事务,... 目录mysql的存储引擎是什么MySQL存储引擎的功能MySQL的存储引擎的分类查看存储引擎1.命令

阅读更多...

Python中isinstance()函数原理解释及详细用法示例

Python中isinstance()函数原理解释及详细用法示例

《Python中isinstance()函数原理解释及详细用法示例》isinstance()是Python内置的一个非常有用的函数,用于检查一个对象是否属于指定的类型或类型元组中的某一个类型,它是Py... 目录python中isinstance()函数原理解释及详细用法指南一、isinstance()函数

阅读更多...

Python的pandas库基础知识超详细教程

Python的pandas库基础知识超详细教程

《Python的pandas库基础知识超详细教程》Pandas是Python数据处理核心库,提供Series和DataFrame结构,支持CSV/Excel/SQL等数据源导入及清洗、合并、统计等功能... 目录一、配置环境二、序列和数据表2.1 初始化2.2 获取数值2.3 获取索引2.4 索引取内容2

阅读更多...

Spring的基础事务注解@Transactional作用解读

Spring的基础事务注解@Transactional作用解读

《Spring的基础事务注解@Transactional作用解读》文章介绍了Spring框架中的事务管理,核心注解@Transactional用于声明事务,支持传播机制、隔离级别等配置,结合@Tran... 目录一、事务管理基础1.1 Spring事务的核心注解1.2 注解属性详解1.3 实现原理二、事务事

阅读更多...

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

《uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)》在uni-app开发中,文件上传和图片处理是很常见的需求,但也经常会遇到各种问题,下面：本文主要介绍uni-app小程序项目中实... 目录方式一：使用<canvas>实现图片压缩（推荐，兼容性好）示例代码（小程序平台）：方式二：使用uni

阅读更多...

Python屏幕抓取和录制的详细代码示例

Python屏幕抓取和录制的详细代码示例

《Python屏幕抓取和录制的详细代码示例》随着现代计算机性能的提高和网络速度的加快,越来越多的用户需要对他们的屏幕进行录制,：本文主要介绍Python屏幕抓取和录制的相关资料,需要的朋友可以参考... 目录一、常用 python 屏幕抓取库二、pyautogui 截屏示例三、mss 高性能截图四、Pill

阅读更多...

java时区时间转为UTC的代码示例和详细解释

java时区时间转为UTC的代码示例和详细解释

《java时区时间转为UTC的代码示例和详细解释》作为一名经验丰富的开发者,我经常被问到如何将Java中的时间转换为UTC时间,：本文主要介绍java时区时间转为UTC的代码示例和详细解释,文中通... 目录前言步骤一：导入必要的Java包步骤二：获取指定时区的时间步骤三：将指定时区的时间转换为UTC时间步

阅读更多...

Linux五种IO模型的使用解读

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型（阻塞、非阻塞、IO复用、信号驱动、异步）,重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

阅读更多...

MySQL批量替换数据库字符集的实用方法(附详细代码)

MySQL批量替换数据库字符集的实用方法(附详细代码)

《MySQL批量替换数据库字符集的实用方法(附详细代码)》当需要修改数据库编码和字符集时,通常需要对其下属的所有表及表中所有字段进行修改,下面：本文主要介绍MySQL批量替换数据库字符集的实用方法... 目录前言为什么要批量修改字符集？整体脚本脚本逻辑解析1. 设置目标参数2. 生成修改表默认字符集的语句3

阅读更多...