seq2seq架构略解

2024-04-27 04:04
文章标签 架构 seq2seq 略解

本文主要是介绍seq2seq架构略解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

用于序列翻译任务(下图来自d2l)

训练时输入输出格式:

若数据集为{ <(a1,a2,a3,a4,a5),(b1,b2,b3,b4,b5)> }(AB语言对应的句子组)

输入

A语言的单词序列+结束符(a1,a2,a3,a4,a5,<eos>)

开始符+B语言的单词序列(<bos>,b1,b2,b3,b4,b5)

输出

B语言的单词序列(b1,b2,b3,b4,b5,<eos>)

预测时输入格式:

A语言的单词序列+结束符(a1,a2,a3,a4,a5,<eos>)

开始符+空(<bos>,,,,,)

编码器、解码器两部分使用的暂时还是RNN

编码器RNN

隐藏层使用普通初始化

输入:

A语言序列单词的独热向量+<eos>的独热向量

输出:

特征向量序列(但后续并没有使用)+隐藏层参数H1

解码器RNN

使用编码器计算结束之后的隐藏层H1,初始化隐藏层

输入:

训练时,输入<bos>+B语言序列单词的独热向量 + H1(直接拼接)

预测时,输入<bos>,然后将当前RNN预测结果作为下一次预测的输入。

输出:

B语言单词序列的独热向量+<eos>的独热向量

训练时seq2seq的计算图:

预测时seq2seq的计算图:

代码d2l官网十分详细了,就不再赘述了。

另外一个小插曲

实际上d2l官方给出的代码实现的解码器架构有一些小问题

在预测时,在第一步预测完毕之后,使用的dec_state会继承解码器RNN的隐藏层状态,而不是保持编码器所获取的隐藏层H1的信息

在评论区里面已经有大佬给出了正确的代码实现,可以围观。

这篇关于seq2seq架构略解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/939470

相关文章

Knife4j+Axios+Redis前后端分离架构下的 API 管理与会话方案(最新推荐)

《Knife4j+Axios+Redis前后端分离架构下的API管理与会话方案(最新推荐)》本文主要介绍了Swagger与Knife4j的配置要点、前后端对接方法以及分布式Session实现原理,... 目录一、Swagger 与 Knife4j 的深度理解及配置要点Knife4j 配置关键要点1.Spri

mysql中的服务器架构详解

《mysql中的服务器架构详解》:本文主要介绍mysql中的服务器架构,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、mysql服务器架构解释3、总结1、背景简单理解一下mysqphpl的服务器架构。2、mysjsql服务器架构解释mysql的架

k8s上运行的mysql、mariadb数据库的备份记录(支持x86和arm两种架构)

《k8s上运行的mysql、mariadb数据库的备份记录(支持x86和arm两种架构)》本文记录在K8s上运行的MySQL/MariaDB备份方案,通过工具容器执行mysqldump,结合定时任务实... 目录前言一、获取需要备份的数据库的信息二、备份步骤1.准备工作(X86)1.准备工作(arm)2.手

Maven 插件配置分层架构深度解析

《Maven插件配置分层架构深度解析》:本文主要介绍Maven插件配置分层架构深度解析,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Maven 插件配置分层架构深度解析引言:当构建逻辑遇上复杂配置第一章 Maven插件配置的三重境界1.1 插件配置的拓扑

Java异常架构Exception(异常)详解

《Java异常架构Exception(异常)详解》:本文主要介绍Java异常架构Exception(异常),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. Exception 类的概述Exception的分类2. 受检异常(Checked Exception)

MySQL 缓存机制与架构解析(最新推荐)

《MySQL缓存机制与架构解析(最新推荐)》本文详细介绍了MySQL的缓存机制和整体架构,包括一级缓存(InnoDBBufferPool)和二级缓存(QueryCache),文章还探讨了SQL... 目录一、mysql缓存机制概述二、MySQL整体架构三、SQL查询执行全流程四、MySQL 8.0为何移除查

微服务架构之使用RabbitMQ进行异步处理方式

《微服务架构之使用RabbitMQ进行异步处理方式》本文介绍了RabbitMQ的基本概念、异步调用处理逻辑、RabbitMQ的基本使用方法以及在SpringBoot项目中使用RabbitMQ解决高并发... 目录一.什么是RabbitMQ?二.异步调用处理逻辑:三.RabbitMQ的基本使用1.安装2.架构

mybatis的整体架构

mybatis的整体架构分为三层: 1.基础支持层 该层包括:数据源模块、事务管理模块、缓存模块、Binding模块、反射模块、类型转换模块、日志模块、资源加载模块、解析器模块 2.核心处理层 该层包括:配置解析、参数映射、SQL解析、SQL执行、结果集映射、插件 3.接口层 该层包括:SqlSession 基础支持层 该层保护mybatis的基础模块,它们为核心处理层提供了良好的支撑。

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

系统架构设计师: 信息安全技术

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 系统架构设计师: 信息安全技术前言信息安全的基本要素:信息安全的范围:安全措施的目标:访问控制技术要素:访问控制包括:等保