GRU 的总结

2024-06-07 14:48
文章标签 总结 gru

本文主要是介绍GRU 的总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       书接LSTM的介绍(LSTM的总结),这一节来介绍GRU。GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。

       从LSTM的介绍可以知道,一个时间 t 要计算的很多,三个门/权重向量 z,完了还要计算两种信息:全局的和局部的,计算量非常大。基于此,诞生了GRU,它跟LSTM有相当的效果,但是比LSTM的计算更简单,更节省时间和算力。

       简单来看下GRU的基础单元跟基本的RNN一样,都是两个输入h_t-1和x_t,两个输出h_t和y_t,如下图所示:

        再来看下那个蓝色的GRU模块的具体计算吧,先看下面的计算图,为了方便对GRU的理解,顺便放一张LSTM的计算图,对比理解,其中,左边的是LSTM的计算图,右边的GRU的计算图:

                        

        如图所示,看着非常复杂,但是很好拆解,下面就来拆解一下:

     (1)“门”的计算。跟LSTM一样,结合前一步的输出h_t-1和当前输入x_t来计算信息提取要用的权重。

       但是跟LSTM不一样的地方是,LSTM有三个权重(门),GRU只有两个门,看别人的叫法是重置门和更新门,其实他们的计算都跟LSTM极其相似(其实我想说是一样的),计算公式如下:

preview

       图里面的 r 就是重置门,z 就是更新门。然后这里用的激活函数都是sigmod,这个跟KSTM一样,LSTM的三个门的计算也是两个信息的拼接,然后乘一个权重矩阵W,最后再sigmoid一样,得到后面要用的权重向量,也就是常说的“门”。

(2)第二步,来看下有了门之后怎么利用他们来夺取信息。

        在LSTM里,单元间循环利用的有两种信息:长时信息c_t和局部信息h_t,而在GRU里面只有一个h_t。从GRU的计算过程来看,这个h_t的作用其实相当于LSTM里面的c_t,就是长时信息。有了这个认知,后面就好理解了。

       现在有了长时信息 h_t 和当前输入 x_t,跟LSTM比起来,就差了一个局部信息了。在LSTM里面的局部信息其实是,通过遗忘门 Z_f 在长时信息 c_t 里面提取然后传到下一个时间刻的。在GRU的设计里,其实也是通过一个重置门 r 直接从长时信息里面提取的,在GRU里面,当前时刻 t 能用到局部信息的计算如下:

 好家伙,这里的 (h_t-1)'  就是通过重置门 r 从长时信息里提取的局部信息。

(3)当前信息的处理,第二步得到了局部信息,现在问题就来了,这个局部信息要怎么用呢。

        记得在LSTM里面,局部信息是直接跟外部输入拼接了之后乘一个权重,然后用tanh做了下压缩,形成了当前的信息。在GRU里面的做法也是一样的,把局部信息 (h_t-1)'  和外部输入 x_t 拼接,然后乘权重过tanh,形成当前的信息。具体的计算公式如下:

preview

(4)到这一步了,我们已经有了长时信息 h_t-1,局部信息 (h_t-1)' ,融合了外部输入 x_t 后的当前信息 h',还有一个第一步计算的一直没用过的更新门z。那么如何通过这些信息产生一个新的输出 h_t呢。

       其实,在LSTM里面,最后生成的长时信息,就是前一步的长时信息和这一步的当前信息,通过权重各取一部分融合在一起的。在GRU里面,也是这种思想,但是参数相对会少很多,GRU里面新的长时信息 h_t 的计算如下:

好了,这就是一个GRU单元最后的输出了。

       其实整体分析完,发现GRU比LSTM计算快的地方应该就是少了一个门的计算吧。毕竟虽然是只有一个长时信息 h_t (在LSTM里面用 c_t 表示,在GRU里面用 h_t 表示)在循环利用,但是该计算的局部信息都计算了。在LSTM里面是在上一个时刻计算好了,传给下一个时刻使用,而在GRU里面则是直接在当前单元利用长时信息计算,甚至计算的模式和思想都一样。。。。就是设计用的参数不一样。。。。。只能说,都是大佬啊,能做这样的改编。。。。

       “如果只是对gru和lstm来说的话,一方面GRU的参数更少,因而训练稍快或需要更少的数据来泛化。另一方面,如果你有足够的数据,LSTM的强大表达能力可能会产生更好的结果。”——深入理解lstm及其变种gru

 

注:文章中所有的配图来自于李宏毅老师NLP课程,被用在知乎博主的博客中,公式也是这位博主的(实在是懒得自己手打。。。。),博主的LSTM和GRU都讲的很好,简单明了,没我这么啰嗦,博客地址为:人人都能看懂的GRU

这篇关于GRU 的总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1039484

相关文章

Python中logging模块用法示例总结

《Python中logging模块用法示例总结》在Python中logging模块是一个强大的日志记录工具,它允许用户将程序运行期间产生的日志信息输出到控制台或者写入到文件中,:本文主要介绍Pyt... 目录前言一. 基本使用1. 五种日志等级2.  设置报告等级3. 自定义格式4. C语言风格的格式化方法

Spring 依赖注入与循环依赖总结

《Spring依赖注入与循环依赖总结》这篇文章给大家介绍Spring依赖注入与循环依赖总结篇,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. Spring 三级缓存解决循环依赖1. 创建UserService原始对象2. 将原始对象包装成工

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

在Java中实现线程之间的数据共享的几种方式总结

《在Java中实现线程之间的数据共享的几种方式总结》在Java中实现线程间数据共享是并发编程的核心需求,但需要谨慎处理同步问题以避免竞态条件,本文通过代码示例给大家介绍了几种主要实现方式及其最佳实践,... 目录1. 共享变量与同步机制2. 轻量级通信机制3. 线程安全容器4. 线程局部变量(ThreadL

Spring Boot 与微服务入门实战详细总结

《SpringBoot与微服务入门实战详细总结》本文讲解SpringBoot框架的核心特性如快速构建、自动配置、零XML与微服务架构的定义、演进及优缺点,涵盖开发环境准备和HelloWorld实战... 目录一、Spring Boot 核心概述二、微服务架构详解1. 微服务的定义与演进2. 微服务的优缺点三

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

JavaSE正则表达式用法总结大全

《JavaSE正则表达式用法总结大全》正则表达式就是由一些特定的字符组成,代表的是一个规则,:本文主要介绍JavaSE正则表达式用法的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录常用的正则表达式匹配符正则表China编程达式常用的类Pattern类Matcher类PatternSynta

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

Nginx Location映射规则总结归纳与最佳实践

《NginxLocation映射规则总结归纳与最佳实践》Nginx的location指令是配置请求路由的核心机制,其匹配规则直接影响请求的处理流程,下面给大家介绍NginxLocation映射规则... 目录一、Location匹配规则与优先级1. 匹配模式2. 优先级顺序3. 匹配示例二、Proxy_pa

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio