序列建模之循环和递归网络 - 优化长期依赖篇

2024-08-23 07:28

本文主要是介绍序列建模之循环和递归网络 - 优化长期依赖篇,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

序言

在序列建模领域,循环神经网络( RNN \text{RNN} RNN)及其变体,如长短期记忆网络( LSTM \text{LSTM} LSTM)和递归神经网络( Recursive Neural Network \text{Recursive Neural Network} Recursive Neural Network),凭借其捕捉序列数据时间依赖性的能力,成为处理复杂序列数据的关键工具。然而,尽管这些网络在处理短期依赖方面表现出色,但在处理长期依赖时却面临严峻挑战。长期依赖问题主要源于梯度在反向传播过程中的消失或爆炸现象,这限制了 RNN \text{RNN} RNN在处理需要长期记忆的任务(如自然语言处理中的长文本理解)时的性能。

优化长期依赖

  • 神经网络优化中的挑战篇 - 长期依赖长期依赖的挑战篇已经描述过在许多时间步上优化RNN时发生的梯度消失和爆炸的问题。
  • Martens and Sutskever (2011) \text{Martens and Sutskever (2011)} Martens and Sutskever (2011) 提出了一个有趣的想法是,二阶导数可能在一阶导数消失的同时消失。
    • 二阶优化算法可以大致被理解为将一阶导数除以二阶导数(在更高维数,由梯度乘以 Hessian \text{Hessian} Hessian的逆)。
    • 如果二阶导数与一阶导数以类似的速率收缩,那么一阶和二阶导数的比率可保持相对恒定。
    • 不幸的是,二阶方法有许多缺点,包括高的计算成本、需要一个大的 minibatch \text{minibatch} minibatch、并且倾向于被吸引到鞍点。
    • Martens and Sutskever (2011) \text{Martens and Sutskever (2011)} Martens and Sutskever (2011) 发现采用二阶方法的不错结果。
    • 之后, Sutskever et al. (2013) \text{Sutskever et al. (2013)} Sutskever et al. (2013)发现使用较简单的方法可以达到类似的结果,例如细心初始化的 Nesterov \text{Nesterov} Nesterov动量法。
    • 更详细的内容参考 Sutskever (2012) \text{Sutskever (2012)} Sutskever (2012)
    • 应用于 LSTM \text{LSTM} LSTM时,这两种方法在很大程度上会被单纯的 SGD \text{SGD} SGD(甚至没有动量)取代。
    • 这是机器学习中一个延续的主题,设计一个易于优化模型通常比设计出更加强大的优化算法更容易。

截断梯度

  • 如在神经网络优化中的挑战篇 - 悬崖和梯度爆炸中讨论,强非线性函数(如由许多时间步计算的循环网络)往往倾向于非常大或非常小幅度的梯度。如神经网络优化中的挑战篇中 - 图例3图例1所示,我们可以看到,目标函数(作为参数的函数)存在一个伴随 ‘‘悬崖’’ 的 ‘‘地形’’:宽且相当平坦区域被目标函数变化快的小区域隔开,形成了一种悬崖。
  • 这导致的困难是,当参数梯度非常大时,梯度下降的参数更新可以将参数抛出很远,进入目标函数较大的区域,到达当前解所作的努力变成了无用功。
    • 梯度告诉我们,围绕当前参数的无穷小区域内最速下降的方向。
    • 这个无穷小区域之外,代价函数可能开始沿曲线背面而上。
    • 更新必须被选择为足够小,以避免过分穿越向上的曲面。
    • 我们通常使用衰减速度足够慢的学习率,使连续的步骤具有大致相同的学习率。
    • 适合于一个相对线性的地形部分的步长经常在下一步进入地形中更加弯曲的部分时变得不适合,会导致上坡运动。
  • 一个简单的解决方案也被从业者使用多年:截断梯度 clipping the gradient \text{clipping the gradient} clipping the gradient)此想法有不同实例 ( Mikolov, 2012; Pascanu et al., 2013a \text{Mikolov, 2012; Pascanu et al., 2013a} Mikolov, 2012; Pascanu et al., 2013a)。
    • 一种选择是在参数更新之前,逐元素地截断 minibatch \text{minibatch} minibatch产生的参数梯度( Mikolov, 2012 \text{Mikolov, 2012} Mikolov, 2012)。
    • 另一种是在参数更新之前截断梯度 g \boldsymbol{g} g 的范数 ∥ g ∥ \Vert\boldsymbol{g}\Vert g( Pascanu et al., 2013a \text{Pascanu et al., 2013a} Pascanu et al., 2013a):
      { if ∥ g ∥ > v — 公式1 g ← g v ∥ g ∥ — 公式2 \begin{cases}\begin{aligned}\text{if} \Vert\boldsymbol{g}\Vert&>v &\quad\textbf{---\footnotesize{公式1}}\\ \boldsymbol{g}&\gets\frac{\boldsymbol{g}v}{\Vert g\Vert}&\quad\textbf{---\footnotesize{公式2}} \end{aligned}\end{cases} ifgg>vggv公式1公式2
      • 其中 v v v 是范数上界, g \boldsymbol{g} g 用来更新参数。
      • 因为所有参数(包括不同的参数组,如权重和偏置)的梯度被单个缩放因子联合重整化,所以后一方法具有的优点是保证了每个步骤仍然是在梯度方向上的,但实验表明两种形式类似。
    • 虽然参数更新与真实梯度具有相同的方向梯度,经过梯度范数截断,参数更新的向量范数现在变得有界。
    • 这种有界梯度能避免执行梯度爆炸时的有害一步。
    • 事实上,当梯度大小高于阈值时,即使是采取简单的随机步骤往往工作得几乎一样好。
    • 如果爆炸非常严重,梯度数值上为 Inf \text{Inf} Inf Nan \text{Nan} Nan(无穷大或不是一个数字),则可以采取大小为 v v v 的随机一步,通常会离开数值不稳定的状态。
    • 截断每 minibatch \text{minibatch} minibatch梯度范数不会改变单个 minibatch \text{minibatch} minibatch的梯度方向。
    • 然而,许多 minibatch \text{minibatch} minibatch使用范数截断梯度后的平均值不等同于截断真实梯度(使用所有的实例所形成的梯度)的范数。
    • 大导数范数的样本,和像这样的出现在同一 minibatch \text{minibatch} minibatch的样本,其对最终方向的贡献将消失。
    • 不像传统 minibatch \text{minibatch} minibatch梯度下降,其中真实梯度的方向是等于所有 minibatch \text{minibatch} minibatch梯度的平均。
    • 换句话说,传统的随机梯度下降使用梯度的无偏估计,而与使用范数截断的梯度下降引入了经验上是有用的启发式偏置。
    • 通过逐元素截断,更新的方向与真实梯度或 minibatch \text{minibatch} minibatch的梯度不再对齐,但是它仍然是一个下降方向。
    • 还有学者提出 ( Graves, 2013 \text{Graves, 2013} Graves, 2013)(相对于隐藏单元)截断反向传播梯度,但没有发布与这些变种之间的比较; 我们推测,所有这些方法表现类似。

引导信息流的正则化


  • 图例1:梯度截断在有两个参数 w \boldsymbol{w} w b \boldsymbol{b} b 的循环网络中的效果示例。
    • 梯度截断在有两个参数 w \boldsymbol{w} w b \boldsymbol{b} b 的循环网络中的效果示例。
      在这里插入图片描述

    • 说明:

      • 梯度截断可以使梯度下降在极陡峭的悬崖附近更合理地执行。
      • 这些陡峭的悬崖通常发生在循环网络中,位于循环网络近似线性的附近。
      • 悬崖在时间步的数量上呈指数地陡峭,因为对于每个时间步,权重矩阵都自乘一次。
      • 左图:
        • 没有梯度截断的梯度下降超过这个小峡谷的底部,然后从悬崖面接收非常大的梯度。
        • 大梯度灾难性地将参数推到图的轴外。
      • 右图:
        • 使用梯度截断的梯度下降对悬崖的反应更温和。
        • 当它上升到悬崖面时,步长受到限制,使得它不会被推出靠近解的陡峭区域。
        • Pascanu et al. (2013a) \text{Pascanu et al. (2013a)} Pascanu et al. (2013a) 许可改编此图。

总结

  • 为了优化循环和递归网络中的长期依赖问题,研究者们提出了多种解决方案。其中, LSTM \text{LSTM} LSTM通过引入遗忘门、输入门和输出门等机制,有效缓解了梯度消失和爆炸问题,显著提升了模型处理长序列数据的能力。
  • 此外,深度循环网络( DRNN \text{DRNN} DRNN)通过堆叠多个 RNN \text{RNN} RNN层,增强了模型对序列数据的非线性变换能力,进一步提升了捕捉长期依赖关系的能力。尽管这些改进在一定程度上解决了长期依赖问题,但未来的研究仍需不断探索更有效的方法,以进一步提升循环和递归网络在序列建模任务中的性能。随着深度学习技术的不断发展,我们有理由相信,这些网络将在更多领域发挥重要作用,推动人工智能技术的持续进步与发展。

往期内容回顾

深度模型中的优化 - 神经网络优化中的挑战篇
序列建模之循环和递归网络 - 长期依赖的挑战篇
序列建模之循环和递归网络 - 长短期记忆和其他门控RNN篇

这篇关于序列建模之循环和递归网络 - 优化长期依赖篇的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1098729

相关文章

Python pip下载包及所有依赖到指定文件夹的步骤说明

《Pythonpip下载包及所有依赖到指定文件夹的步骤说明》为了方便开发和部署,我们常常需要将Python项目所依赖的第三方包导出到本地文件夹中,:本文主要介绍Pythonpip下载包及所有依... 目录步骤说明命令格式示例参数说明离线安装方法注意事项总结要使用pip下载包及其所有依赖到指定文件夹,请按照以

MySQL存储过程之循环遍历查询的结果集详解

《MySQL存储过程之循环遍历查询的结果集详解》:本文主要介绍MySQL存储过程之循环遍历查询的结果集,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言1. 表结构2. 存储过程3. 关于存储过程的SQL补充总结前言近来碰到这样一个问题:在生产上导入的数据发现

Java -jar命令如何运行外部依赖JAR包

《Java-jar命令如何运行外部依赖JAR包》在Java应用部署中,java-jar命令是启动可执行JAR包的标准方式,但当应用需要依赖外部JAR文件时,直接使用java-jar会面临类加载困... 目录引言:外部依赖JAR的必要性一、问题本质:类加载机制的限制1. Java -jar的默认行为2. 类加

java -jar命令运行 jar包时运行外部依赖jar包的场景分析

《java-jar命令运行jar包时运行外部依赖jar包的场景分析》:本文主要介绍java-jar命令运行jar包时运行外部依赖jar包的场景分析,本文给大家介绍的非常详细,对大家的学习或工作... 目录Java -jar命令运行 jar包时如何运行外部依赖jar包场景:解决:方法一、启动参数添加: -Xb

利用Python实现时间序列动量策略

《利用Python实现时间序列动量策略》时间序列动量策略作为量化交易领域中最为持久且被深入研究的策略类型之一,其核心理念相对简明:对于显示上升趋势的资产建立多头头寸,对于呈现下降趋势的资产建立空头头寸... 目录引言传统策略面临的风险管理挑战波动率调整机制:实现风险标准化策略实施的技术细节波动率调整的战略价

Linux网络配置之网桥和虚拟网络的配置指南

《Linux网络配置之网桥和虚拟网络的配置指南》这篇文章主要为大家详细介绍了Linux中配置网桥和虚拟网络的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、网桥的配置在linux系统中配置一个新的网桥主要涉及以下几个步骤:1.为yum仓库做准备,安装组件epel-re

python如何下载网络文件到本地指定文件夹

《python如何下载网络文件到本地指定文件夹》这篇文章主要为大家详细介绍了python如何实现下载网络文件到本地指定文件夹,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下...  在python中下载文件到本地指定文件夹可以通过以下步骤实现,使用requests库处理HTTP请求,并结合o

SpringBoot中HTTP连接池的配置与优化

《SpringBoot中HTTP连接池的配置与优化》这篇文章主要为大家详细介绍了SpringBoot中HTTP连接池的配置与优化的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录一、HTTP连接池的核心价值二、Spring Boot集成方案方案1:Apache HttpCl

PyTorch高级特性与性能优化方式

《PyTorch高级特性与性能优化方式》:本文主要介绍PyTorch高级特性与性能优化方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、自动化机制1.自动微分机制2.动态计算图二、性能优化1.内存管理2.GPU加速3.多GPU训练三、分布式训练1.分布式数据

PostgreSQL 序列(Sequence) 与 Oracle 序列对比差异分析

《PostgreSQL序列(Sequence)与Oracle序列对比差异分析》PostgreSQL和Oracle都提供了序列(Sequence)功能,但在实现细节和使用方式上存在一些重要差异,... 目录PostgreSQL 序列(Sequence) 与 oracle 序列对比一 基本语法对比1.1 创建序