用通俗易懂的方式讲解：灵魂 20 问帮你彻底搞定Transformer

本文主要是介绍用通俗易懂的方式讲解：灵魂 20 问帮你彻底搞定Transformer，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

大家好，今天总结一下史上最全 Transformer 面试题

Transformer为何使用多头注意力机制？（为什么不使用一个头）
Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？
（注意和第一个问题的区别）
Transformer计算attention的时候为何选择点乘而不是加法？两者计算复杂度和效果上有什么区别？
为什么在进行softmax之前需要对attention进行scaled（为什么除以dk的平方根），并使用公式推导进行讲解
在计算attention score的时候如何对padding做mask操作？
为什么在进行多头注意力的时候需要对每个head进行降维？（可以参考上面一个问题）
大概讲一下Transformer的Encoder模块？
为何在获取输入词向量之后需要对矩阵乘以embedding size的开方？意义是什么？
简单介绍一下Transformer的位置编码？有什么意义和优缺点？
你还了解哪些关于位置编码的技术，各自的优缺点是什么？
简单讲一下Transformer中的残差结构以及意义。
为什么transformer块使用LayerNorm而不是BatchNorm？LayerNorm 在Transformer的位置是哪里？
简答讲一下BatchNorm技术，以及它的优缺点。
简单描述一下Transformer中的前馈神经网络？使用了什么激活函数？相关优缺点？
Encoder端和Decoder端是如何进行交互的？（在这里可以问一下关于seq2seq的attention知识）
Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别？（为什么需要decoder自注意力需要进行 sequence mask)
Transformer的并行化提现在哪个地方？Decoder端可以做并行化吗？
简单描述一下wordpiece model 和 byte pair encoding，有实际应用过吗？
Transformer训练的时候学习率是如何设定的？Dropout是如何设定的，位置在哪里？Dropout 在测试的需要有什么需要注意的吗？
引申一个关于bert问题，bert的mask为何不学习transformer在attention处进行屏蔽score的技巧？

答案解析

其实这20个问题不是让大家背答案，而是为了帮助大家梳理 transformer的相关知识点，所以你注意看会发现我的问题也是有某种顺序的。

问题基本上都可以在网上找到答案，所以大家可以先去搜一搜，自己理解一下。如果想要梳理好的完整答案，也可以进我们交流群获取

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了NLP面试与技术交流群， 想要进交流群、需要本文源码、提升技术的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、添加微信号：mlc2060，备注：面试资料
方式②、微信搜索公众号：机器学习社区，后台回复：面试资料

文章精选

深度学习&大模型

用通俗易懂的方式讲解：吴恩达倾情推荐28张图，全解深度学习知识！

用通俗易懂的方式讲解：LSTM原理及生成藏头诗（Python）

用通俗易懂的方式讲解：超详细！大模型面经指南（附答案）

NLP方向

用通俗易懂的方式讲解：自然语言处理初学者指南

用通俗易懂的方式讲解：一文讲透NLP算法(Python)

用通俗易懂的方式讲解：NLP 方向最全面试题库

用通俗易懂的方式讲解：NLP 这样学习才是正确路线

用通俗易懂的方式讲解：TF-IDF算法介绍及实现

用通俗易懂的方式讲解：总结NLTK使用方法

用通俗易懂的方式讲解：针对中文的自然语言预处理方法汇总

用通俗易懂的方式讲解：NLP常见语言模型及数据增强方法总结

用通俗易懂的方式讲解：TextRank 算法介绍及实现

用通俗易懂的方式讲解：关键词提取方法总结及实现

用通俗易懂的方式讲解：实体关系抽取入门教程

这篇关于用通俗易懂的方式讲解：灵魂 20 问帮你彻底搞定Transformer的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

用通俗易懂的方式讲解：灵魂 20 问帮你彻底搞定Transformer

答案解析

技术交流群

文章精选

相关文章

HTTP 与 SpringBoot 参数提交与接收协议方式

使用shardingsphere实现mysql数据库分片方式

Spring创建Bean的八种主要方式详解

python中的显式声明类型参数使用方式

Linux系统管理与进程任务管理方式

Unity新手入门学习殿堂级知识详细讲解（图文）

IDEA与MyEclipse代码量统计方式

C#和Unity中的中介者模式使用方式

详解Java中三种状态机实现方式来优雅消灭 if-else 嵌套

Java异常捕获及处理方式详解