GRU 的总结

本文主要是介绍GRU 的总结，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

书接LSTM的介绍（LSTM的总结），这一节来介绍GRU。GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种。和LSTM（Long-Short Term Memory）一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。

从LSTM的介绍可以知道，一个时间 t 要计算的很多，三个门/权重向量 z，完了还要计算两种信息：全局的和局部的，计算量非常大。基于此，诞生了GRU，它跟LSTM有相当的效果，但是比LSTM的计算更简单，更节省时间和算力。

简单来看下GRU的基础单元跟基本的RNN一样，都是两个输入h_t-1和x_t，两个输出h_t和y_t，如下图所示：

再来看下那个蓝色的GRU模块的具体计算吧，先看下面的计算图，为了方便对GRU的理解，顺便放一张LSTM的计算图，对比理解，其中，左边的是LSTM的计算图，右边的GRU的计算图：

如图所示，看着非常复杂，但是很好拆解，下面就来拆解一下：

（1）“门”的计算。跟LSTM一样，结合前一步的输出h_t-1和当前输入x_t来计算信息提取要用的权重。

但是跟LSTM不一样的地方是，LSTM有三个权重(门)，GRU只有两个门，看别人的叫法是重置门和更新门，其实他们的计算都跟LSTM极其相似(其实我想说是一样的)，计算公式如下：

preview

图里面的 r 就是重置门，z 就是更新门。然后这里用的激活函数都是sigmod，这个跟KSTM一样，LSTM的三个门的计算也是两个信息的拼接，然后乘一个权重矩阵W，最后再sigmoid一样，得到后面要用的权重向量，也就是常说的“门”。

（2）第二步，来看下有了门之后怎么利用他们来夺取信息。

在LSTM里，单元间循环利用的有两种信息：长时信息c_t和局部信息h_t，而在GRU里面只有一个h_t。从GRU的计算过程来看，这个h_t的作用其实相当于LSTM里面的c_t，就是长时信息。有了这个认知，后面就好理解了。

现在有了长时信息 h_t 和当前输入 x_t，跟LSTM比起来，就差了一个局部信息了。在LSTM里面的局部信息其实是，通过遗忘门 Z_f 在长时信息 c_t 里面提取然后传到下一个时间刻的。在GRU的设计里，其实也是通过一个重置门 r 直接从长时信息里面提取的，在GRU里面，当前时刻 t 能用到局部信息的计算如下：

好家伙，这里的 (h_t-1)' 就是通过重置门 r 从长时信息里提取的局部信息。

（3）当前信息的处理，第二步得到了局部信息，现在问题就来了，这个局部信息要怎么用呢。

记得在LSTM里面，局部信息是直接跟外部输入拼接了之后乘一个权重，然后用tanh做了下压缩，形成了当前的信息。在GRU里面的做法也是一样的，把局部信息 (h_t-1)' 和外部输入 x_t 拼接，然后乘权重过tanh，形成当前的信息。具体的计算公式如下：

preview

（4）到这一步了，我们已经有了长时信息 h_t-1，局部信息 (h_t-1)' ，融合了外部输入 x_t 后的当前信息 h'，还有一个第一步计算的一直没用过的更新门z。那么如何通过这些信息产生一个新的输出 h_t呢。

其实，在LSTM里面，最后生成的长时信息，就是前一步的长时信息和这一步的当前信息，通过权重各取一部分融合在一起的。在GRU里面，也是这种思想，但是参数相对会少很多，GRU里面新的长时信息 h_t 的计算如下：

好了，这就是一个GRU单元最后的输出了。

其实整体分析完，发现GRU比LSTM计算快的地方应该就是少了一个门的计算吧。毕竟虽然是只有一个长时信息 h_t （在LSTM里面用 c_t 表示，在GRU里面用 h_t 表示）在循环利用，但是该计算的局部信息都计算了。在LSTM里面是在上一个时刻计算好了，传给下一个时刻使用，而在GRU里面则是直接在当前单元利用长时信息计算，甚至计算的模式和思想都一样。。。。就是设计用的参数不一样。。。。。只能说，都是大佬啊，能做这样的改编。。。。

“如果只是对gru和lstm来说的话，一方面GRU的参数更少，因而训练稍快或需要更少的数据来泛化。另一方面，如果你有足够的数据，LSTM的强大表达能力可能会产生更好的结果。”——深入理解lstm及其变种gru

注：文章中所有的配图来自于李宏毅老师NLP课程，被用在知乎博主的博客中，公式也是这位博主的（实在是懒得自己手打。。。。），博主的LSTM和GRU都讲的很好，简单明了，没我这么啰嗦，博客地址为：人人都能看懂的GRU

这篇关于GRU 的总结的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！