attention-is-all-you-need-pytorch 源码阅读

本文主要是介绍attention-is-all-you-need-pytorch 源码阅读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

训练数据流
- train.train_epoch
- Transformer
- Encoder
- EncoderLayer
- - MultiHeadAttention
  - - ScaledDotProductAttention
  - PositionwiseFeedForward
- Decoder
- DecoderLayer
Predict
TODO

训练数据流

train.train_epoch

对training_data进行迭代, 产生batch, 其中有src_seq, trg_seq

src_seq.shape
Out[11]: torch.Size([256, 32])
src_seq
Out[12]: 
tensor([[   2, 4567, 4578,  ...,    1,    1,    1],[   2, 4558, 4565,  ...,    1,    1,    1],[   2, 4558, 4565,  ...,    1,    1,    1],...,[   2, 4558,   64,  ...,    1,    1,    1],[   2, 4564, 5051,  ...,    1,    1,    1],[   2, 4567, 4578,  ...,    1,    1,    1]])

2是开始, 1是结束, 32是句子长度, 256是batch数

Transformer

transformer.Models.Transformer.forward

现在数据被丢进了Transformer这个模型

src_mask = get_pad_mask(src_seq, self.src_pad_idx)
trg_mask = get_pad_mask(trg_seq, self.trg_pad_idx) & get_subsequent_mask(trg_seq)enc_output, *_ = self.encoder(src_seq, src_mask)

src_mask会在ScaledDotProductAttention用到

编码了一波, enc_output其实与输入数据的size一样

enc_output.shape
Out[9]: torch.Size([256, 36, 512])

去看Decoder

Encoder

transformer.Models.Encoder

#                               9521         512          1
self.src_word_emb = nn.Embedding(n_src_vocab, d_word_vec, padding_idx=pad_idx)

what-does-padding-idx-do-in-nn-embeddings

transformer.Models.Encoder.forward

这篇关于attention-is-all-you-need-pytorch 源码阅读的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

attention-is-all-you-need-pytorch 源码阅读

文章目录

训练数据流

train.train_epoch

Transformer

Encoder

相关文章

java 恺撒加密/解密实现原理(附带源码)

Nginx屏蔽服务器名称与版本信息方式(源码级修改)

Android实现图片浏览功能的示例详解(附带源码)

PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例

Pytorch介绍与安装过程

conda安装GPU版pytorch默认却是cpu版本

8种快速易用的Python Matplotlib数据可视化方法汇总(附源码)

PyTorch中cdist和sum函数使用示例详解

PyTorch高级特性与性能优化方式

Android实现一键录屏功能(附源码)