【王树森】RNN模型与NLP应用(7/9)：机器翻译与Seq2Seq模型（个人向笔记）

2024-08-31 10:52

文章标签 应用笔记模型个人 nlp rnn seq2seq 机器翻译王树森

本文主要是介绍【王树森】RNN模型与NLP应用(7/9)：机器翻译与Seq2Seq模型（个人向笔记），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Machine Translation Data

做机器学习任务的第一步都是处理数据，我们首先需要准备机器翻译的数据。
由于我们是学习用途，因此拿一个小规模数据集即可：http://www.manythings.org/anki/
下面的数据集中：一个英语句子对应多个德语句子，如果翻译的时候能命中其中的一个则算作完全正确。

1. Preprocessing

将大写全部转化为小写
去掉标点符号

2. Tokenization & Build Dictionary

我们分别需要两个Tokenizer，一个英语Tokenizer和一个德语Tokenizer
英语的text最后经过英语Tokenizer转化为 input_tokens
德语的text经过德语Tokenizer转化为target_tokens
在Tokenization后需要建立两个字典，一个英语字典和一个德语字典
Tokenization既可以是char-level的，也可以是word-level的
本节课使用的是char-level的Tokenization
但是实际的机器翻译都是用word-level的，因为它们的数据集足够大

Question:为什么要用两个不同的Tokenizer？
答案是在char-level中，语言有不同的char，如下图所示：英语和德语的char总数并不相同，希腊语也类似：

而在word-level的情况下则更需要两个了，原因是：①词汇完全不一样。②分词方法不同。
下面是经过Tokenizaion后的字典：其中 \t 是起始符，\n是终止符。选用其他的字符也行，只要不和已有的冲突即可。

3. One-Hot Encoding

经过上面的Tokenize后，我们可以将一段text通过字典转化为一个个数
接下来我们把每一个数字用一个One-Hot向量表示如下：

Training the Seq2Seq Model

LSTM Encode用于提取输入英文文本的信息，它将这句话的最后状态信息作为输入传到LSTM Decoder
LSTM Decoder用于生成德语，这其实就是上节课讲到的文本生成器，只不过区别在于这里的文本生成器的初始向量为LSTM Encoder，接受了输入的英语文本的特征作为初始状态，Decoder通过被输入的这个状态来指导这句英语是 go away
LSTM Decoder作为一个文本翻译器，那么它需要每次接受一个输入，然后输出对下一个字符的预测。
LSTM Decoder第一个输入必须是起始符，这也是为什么需要定义一个起始符的原因
起始符后面预测的字母为m，我们对m作One-Hot Encoding，作为标签y和预测的概率p一起传入交叉熵损失函数，我们希望p尽量接近y，所以损失越小越好。这样我们就可以利用反向传播计算梯度，梯度会传到Decoder，然后顺着Decoder传到Encoder，利用梯度下降即可更新Decoder和Encoder的参数。
我们不断重复这个过程，直到这句德语被预测完

在这里插入图片描述

Seq2Seq Model in Keras

最后对Dense作反向传播的时候可以顺着这张图的链路一直传到Encoder和Decoder
在这里插入图片描述

Inference

在预测时，我们用LSTM Encoder把go away转化为状态向量指导Decoder进行翻译。
而Decoder则是从 \t（起始符）开始对整句德语进行预测，过程和上节课讲到的文本生成器一致，直到遇到终止符 \n。

Summary

在这里插入图片描述

How to Improve

1. Bi-LSTM instead of LSTM(Encoder only!)

Encoder对一个句子只取最后的那个状态向量，最后的状态向量包含句子的所有信息
如果句子很长的话就会导致遗忘，导致传入的英语文本信息不全导致遗漏
可以想到用双向LSTM来增加LSTM的记忆力
注意Decoder不能用双向，由于文本生成任务的原因，Decoder只能单向

2. Word-level Tokenization

本节课用的时char-level比较方便，但是会导致一个句子比较长，容易导致LSTM的遗忘
如果用word-level的话，token的长度会缩短四到五倍，比较容易避免遗忘
但是这样的话需要一个额外的Embedding层，这样就需要大量的数据来对Embedding层的参数进行训练
若训练数据不够而Embedding层的参数又过多就会导致过拟合，这样就还可能需要额外的预训练

3. Multi-Task Learning

在任务里多加一个训练从英语到英语的任务，这样在数据量不变的情况下，可训练的数据就多了一倍，这样Encoder会被训练得更好
还可以增加更多的任务，比如训练英语到其他语言的翻译，虽然增加了更多Decoder，而且德语Decoder没有改进，但是Encoder只有一个，这样可以更好的训练Encoder。翻译效果还是会提升。

4. Attention

下节课！

这篇关于【王树森】RNN模型与NLP应用(7/9)：机器翻译与Seq2Seq模型（个人向笔记）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1123702。 23002807@qq.com

相关文章

利用Python操作Word文档页码的实际应用

利用Python操作Word文档页码的实际应用

《利用Python操作Word文档页码的实际应用》在撰写长篇文档时,经常需要将文档分成多个节,每个节都需要单独的页码,下面：本文主要介绍利用Python操作Word文档页码的相关资料,文中通过代码... 目录需求：文档详情：要求：该程序的功能是：总结需求：一次性处理24个文档的页码。文档详情：1、每个

阅读更多...

Java中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例解析

Java中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例解析

《Java中的分布式系统开发基于Zookeeper与Dubbo的应用案例解析》本文将通过实际案例,带你走进基于Zookeeper与Dubbo的分布式系统开发,本文通过实例代码给大家介绍的非常详... 目录Java 中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例一、分布式系统中的挑战二

阅读更多...

Java 缓存框架 Caffeine 应用场景解析

Java 缓存框架 Caffeine 应用场景解析

《Java缓存框架Caffeine应用场景解析》文章介绍Caffeine作为高性能Java本地缓存框架,基于W-TinyLFU算法,支持异步加载、灵活过期策略、内存安全机制及统计监控,重点解析其... 目录一、Caffeine 简介1. 框架概述1.1 Caffeine的核心优势二、Caffeine 基础2

阅读更多...

使用Node.js和PostgreSQL构建数据库应用

使用Node.js和PostgreSQL构建数据库应用

《使用Node.js和PostgreSQL构建数据库应用》PostgreSQL是一个功能强大的开源关系型数据库,而Node.js是构建高效网络应用的理想平台,结合这两个技术,我们可以创建出色的数据驱动... 目录初始化项目与安装依赖建立数据库连接执行CRUD操作查询数据插入数据更新数据删除数据完整示例与最佳

阅读更多...

Linux五种IO模型的使用解读

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型（阻塞、非阻塞、IO复用、信号驱动、异步）,重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

阅读更多...

PHP应用中处理限流和API节流的最佳实践

PHP应用中处理限流和API节流的最佳实践

《PHP应用中处理限流和API节流的最佳实践》限流和API节流对于确保Web应用程序的可靠性、安全性和可扩展性至关重要,本文将详细介绍PHP应用中处理限流和API节流的最佳实践,下面就来和小编一起学习... 目录限流的重要性在 php 中实施限流的最佳实践使用集中式存储进行状态管理（如 Redis）采用滑动

阅读更多...

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired：自动注入的奥秘什么是依赖注入？@Autowired

阅读更多...

PostgreSQL简介及实战应用

PostgreSQL简介及实战应用

《PostgreSQL简介及实战应用》PostgreSQL是一种功能强大的开源关系型数据库管理系统,以其稳定性、高性能、扩展性和复杂查询能力在众多项目中得到广泛应用,本文将从基础概念讲起,逐步深入到高... 目录前言1. PostgreSQL基础1.1 PostgreSQL简介1.2 基础语法1.3 数据库

阅读更多...

Python中的filter() 函数的工作原理及应用技巧

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N

阅读更多...

Python中yield的用法和实际应用示例

Python中yield的用法和实际应用示例

《Python中yield的用法和实际应用示例》在Python中,yield关键字主要用于生成器函数（generatorfunctions）中,其目的是使函数能够像迭代器一样工作,即可以被遍历,但不会... 目录python中yield的用法详解一、引言二、yield的基本用法1、yield与生成器2、yi

阅读更多...