DL基础补全计划(五)---数值稳定性及参数初始化(梯度消失、梯度爆炸)

本文主要是介绍DL基础补全计划(五)---数值稳定性及参数初始化(梯度消失、梯度爆炸),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PS:要转载请注明出处,本人版权所有。

PS: 这个只是基于《我自己》的理解,

如果和你的原则及想法相冲突,请谅解,勿喷。

环境说明
  • Windows 10
  • VSCode
  • Python 3.8.10
  • Pytorch 1.8.1
  • Cuda 10.2

前言


  如果有计算机背景的相关童鞋,都应该知道数值计算中的上溢和下溢的问题。关于计算机中的数值表示,在我的《数与计算机 (编码、原码、反码、补码、移码、IEEE 754、定点数、浮点数)》 (https://blog.csdn.net/u011728480/article/details/100277582) 一文中有比较好的介绍。计算机中的数值表示,相对于实数数轴来说是离散且有限的,意思就是计算机中的能表示的数有最大值和最小值以及最小单位,特别是浮点数表示,有兴趣的可以看看上文。

  其实很好理解,深度学习里面具有大量的乘法加法,一不小心你就会遇见上溢和下溢的问题,因此我们一不小心就会遇见NAN和INF的问题(NAN和INF详见上文提到的文章)。此外,由于一些特殊的情况,可能会导致我们的参数的偏导数接近于0,让我们的模型收敛的非常的慢。因此我们可能需要从模型的初始化以及相关的模型构造方面来好好的讨论一下我们在训练过程中可能出现的问题。

  一般来说,我们训练的时候都非常的关注我们的损失函数,如果损失函数值异常,会导致相关的偏导数出现接近于0或者接近于无限大,那么就会直接导致模型训练及其困难。此外,我们的权重参数也会参与网络计算,按照上述的描述,权重参数的初始值也可能导致损失函数的值异常。因此大佬们也引入了另外一种常见的初始化方式Xavier,比较具有普适性。下面我们简单的验证一下我们训练过程中出现梯度接近于0和接近于无限大的情况,这里也就是说的梯度消失和梯度爆炸问题。同时也简单说明参数初始化相关的问题。





梯度消失(gradient vanishing)


  在深度学习中有一个激活层叫做Sigmoid层,其定义如下是: S i g m o i d ( x ) = 1 / ( 1 + exp ⁡ ( − x ) ) Sigmoid(x)=1/(1+\exp(-x)) Sigmoid(x)=1/(1+exp(x)),如果我们的模型里面接入了这种激活函数,很容易构造出梯度消失的情况,下面我们看一下其导数和函数值相对于X的相关关系。

  代码如下:

import torch
import numpy as np
import matplotlib.pyplot as pltfig, ax = plt.subplots()
xdata, ydata = [[], []], [[], []]
line0, = ax.plot([], [], 'r-', label='sigmoid')
line1, = ax.plot([], [], 'b-', label='gradient-sigmoid')def init_and_show(xlim_min, xlim_max, ylim_min, ylim_max):ax.set_xlabel('x')ax.set_ylabel('sigmoid(x)')ax.set_title('sigmoid/gradient-sigmoid')ax.set_xlim(xlim_min, xlim_max)ax.set_ylim(ylim_min, ylim_max)ax.legend([line0, line1], ('sigmoid', 'gradient-sigmoid'))line0.set_data(xdata[0], ydata[0])line1.set_data(xdata[1], ydata[1])plt.show()def sigmoid_test():x = np.arange(-10.0, 10.0, 0.1)x = torch.tensor(x, dtype=torch.float, requires_grad=True)sig_fun = torch.nn.Sigmoid()y = sig_fun(x)y.backward(torch.ones_like(y))xdata[0] = x.detach().numpy()xdata[1] = x.detach().numpy()ydata[0] = y.detach().numpy()ydata[1] = x.grad.detach().numpy()init_and_show(-10.0, 10.0, 0, 1)def multi_mat_dot():M = np.random.normal(size=(4, 4))print('⼀个矩阵\n', M)for i in range(10000):M = np.dot(M, np.random.normal(size=(4, 4)))print('乘以100个矩阵后\n', M)if __name__ == '__main__':sigmoid_test()

  结果图如下

rep_img

  我们可以从图中看到,当x小于-5和大于+5的时候,其导数的值接近于0,导致bp的时候,参数更新小,模型收敛的特别的慢。





梯度爆炸(gradient exploding)


  现在我们假设我们有一个模型,其有N个线性层构成,定义输入为X,标签为Y,模型为 M ( X ) = X ∗ W 1 . . . . W n − 2 ∗ W n − 1 ∗ W n M(X) = X*W_1 .... W_{n-2}*W_{n-1}*W_n M(X)=XW1....Wn2Wn1Wn,损失函数为 L ( X ) = M ( X ) − Y = X ∗ W 1 . . . . W n − 2 ∗ W n − 1 ∗ W n − Y L(X) = M(X) - Y = X*W_1 .... W_{n-2}*W_{n-1}*W_n - Y L(X)=M(X)Y=XW1....Wn2Wn1WnY,求W1关于损失函数的偏导数 d L ( X ) d W 1 = X ∗ W 2 . . . . W n − 2 ∗ W n − 1 ∗ W n \frac{dL(X)}{dW_1} = X*W_2 .... W_{n-2}*W_{n-1}*W_n dW1dL(X)=XW2....Wn2Wn1Wn。从这里我们可以看到W2到Wn与输入的X的乘积构成了W1的偏导数。

  下面我们简单的构造一个矩阵,然后让他计算100次乘法。代码如下:

import torch
import numpy as np
import matplotlib.pyplot as pltfig, ax = plt.subplots()
xdata, ydata = [[], []], [[], []]
line0, = ax.plot([], [], 'r-', label='sigmoid')
line1, = ax.plot([], [], 'b-', label='gradient-sigmoid')def init_and_show(xlim_min, xlim_max, ylim_min, ylim_max):ax.set_xlabel('x')ax.set_ylabel('sigmoid(x)')ax.set_title('sigmoid/gradient-sigmoid')ax.set_xlim(xlim_min, xlim_max)ax.set_ylim(ylim_min, ylim_max)ax.legend([line0, line1], ('sigmoid', 'gradient-sigmoid'))line0.set_data(xdata[0], ydata[0])line1.set_data(xdata[1], ydata[1])plt.show()def sigmoid_test():x = np.arange(-10.0, 10.0, 0.1)x = torch.tensor(x, dtype=torch.float, requires_grad=True)sig_fun = torch.nn.Sigmoid()y = sig_fun(x)y.backward(torch.ones_like(y))xdata[0] = x.detach().numpy()xdata[1] = x.detach().numpy()ydata[0] = y.detach().numpy()ydata[1] = x.grad.detach().numpy()init_and_show(-10.0, 10.0, 0, 1)def multi_mat_dot():M = np.random.normal(size=(4, 4))print('⼀个矩阵\n', M)for i in range(100):M = np.dot(M, np.random.normal(size=(4, 4)))print('乘以100个矩阵后\n', M)if __name__ == '__main__':multi_mat_dot()

  他计算100次乘法后结果如下:

rep_img

  我们可以看到,经过100次乘法后,其值已经非常大(小)了指数都是到了25了。这个时候算出来的损失非常大的,这个时候梯度也非常大,很容易导致训练异常。





参数初始化之Xavier


  文首我们提到,我们之前的参数初始化都是基于期望为0,方差为一个指定值初始化的,这里面的指定值是随个人定义的,这个可能会给我们的训练过程带来困扰。

  但是我们可以从以下的角度来看待这个事情,我们的权重参数W是一个期望为0,方差为 δ 2 \delta^2 δ2的特定分布。我们的输入特征X是一个期望为0,方差为 λ 2 \lambda^2 λ2的特定分布(注意这里不仅仅是正态分布)。我们假设我们的模型是线性模型,那么其输出为: O i = ∑ j = 1 n W i j X j O_i = \sum\limits_{j=1}^{n}W_{ij}X_{j} Oi=j=1nWijXj O i O_i Oi是代表第i层的输出。这个时候,我们求出 O i O_i Oi的期望是: E ( O i ) = ∑ j = 1 n E ( W i j X j ) = ∑ j = 1 n E ( W i j ) E ( X j ) = 0 E(O_i) = \sum\limits_{j=1}^{n}E(W_{ij}X_{j}) = \sum\limits_{j=1}^{n}E(W_{ij})E(X_{j}) = 0 E(Oi)=j=1nE(WijXj)=j=1nE(Wij)E(Xj)=0,其方差为: V a r i a n c e ( O i ) = E ( O i 2 ) − ( E ( O i ) ) 2 = ∑ j = 1 n E ( W i j 2 X j 2 ) − 0 = ∑ j = 1 n E ( W i j 2 ) E ( X j 2 ) = n ∗ δ 2 ∗ λ 2 Variance(O_i) = E(O_i^2) - (E(O_i))^2 = \sum\limits_{j=1}^{n}E(W_{ij}^2X_{j}^2) - 0 = \sum\limits_{j=1}^{n}E(W_{ij}^2)E(X_{j}^2) = n*\delta^2*\lambda^2 Variance(Oi)=E(Oi2)(E(Oi))2=j=1nE(Wij2Xj2)0=j=1nE(Wij2)E(Xj2)=nδ2λ2。我们现在假设如果要 O i O_i Oi的方差等于X的方差,那么 n ∗ δ 2 = 1 n*\delta^2 = 1 nδ2=1才能够满足要求。现在我们考虑BP的时候,也需要 n o u t ∗ δ 2 = 1 n_{out}*\delta^2 = 1 noutδ2=1才能够保证方差不会变,至少从数值稳定性来说,我们应该保证方差尽量稳定,不应该放大。我们同时考虑n和 n o u t n_{out} nout,那么我们可以认为当 1 / 2 ∗ ( n + n o u t ) ∗ δ 2 = 1 1/2*(n+n_{out})*\delta^2 = 1 1/2(n+nout)δ2=1时,我们保证了输出O的方差在约定范围内,尽量保证了其数值的稳定性,这就是Xavier方法的核心内容。

  初始化方法有很多,但是Xavier方法有较大的普适性。对于某些模型,特定的初始化方法有奇效。





后记


  到本文结束,其实我们可以训练一些简单的模型了,但是本文所介绍的3个概念会一直伴随着我们以后的学习过程,如果训练出现了INF,NAN这些特殊的值,基本我们就需要往这方面去想和解决问题。

参考文献

  • https://github.com/d2l-ai/d2l-zh/releases (V1.0.0)
  • https://github.com/d2l-ai/d2l-zh/releases (V2.0.0 alpha1)
  • https://blog.csdn.net/u011728480/article/details/100277582 《数与计算机 (编码、原码、反码、补码、移码、IEEE 754、定点数、浮点数)》



打赏、订阅、收藏、丢香蕉、硬币,请关注公众号(攻城狮的搬砖之路)
qrc_img

PS: 请尊重原创,不喜勿喷。

PS: 要转载请注明出处,本人版权所有。

PS: 有问题请留言,看到后我会第一时间回复。

这篇关于DL基础补全计划(五)---数值稳定性及参数初始化(梯度消失、梯度爆炸)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1065761

相关文章

Linux基础命令@grep、wc、管道符的使用详解

《Linux基础命令@grep、wc、管道符的使用详解》:本文主要介绍Linux基础命令@grep、wc、管道符的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录grep概念语法作用演示一演示二演示三,带选项 -nwc概念语法作用wc,不带选项-c,统计字节数-

C/C++的OpenCV 进行图像梯度提取的几种实现

《C/C++的OpenCV进行图像梯度提取的几种实现》本文主要介绍了C/C++的OpenCV进行图像梯度提取的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录预www.chinasem.cn备知识1. 图像加载与预处理2. Sobel 算子计算 X 和 Y

python操作redis基础

《python操作redis基础》Redis(RemoteDictionaryServer)是一个开源的、基于内存的键值对(Key-Value)存储系统,它通常用作数据库、缓存和消息代理,这篇文章... 目录1. Redis 简介2. 前提条件3. 安装 python Redis 客户端库4. 连接到 Re

SpringBoot基础框架详解

《SpringBoot基础框架详解》SpringBoot开发目的是为了简化Spring应用的创建、运行、调试和部署等,使用SpringBoot可以不用或者只需要很少的Spring配置就可以让企业项目快... 目录SpringBoot基础 – 框架介绍1.SpringBoot介绍1.1 概述1.2 核心功能2

一文详解PostgreSQL复制参数

《一文详解PostgreSQL复制参数》PostgreSQL作为一款功能强大的开源关系型数据库,其复制功能对于构建高可用性系统至关重要,本文给大家详细介绍了PostgreSQL的复制参数,需要的朋友可... 目录一、复制参数基础概念二、核心复制参数深度解析1. max_wal_seChina编程nders:WAL

Spring Boot集成SLF4j从基础到高级实践(最新推荐)

《SpringBoot集成SLF4j从基础到高级实践(最新推荐)》SLF4j(SimpleLoggingFacadeforJava)是一个日志门面(Facade),不是具体的日志实现,这篇文章主要介... 目录一、日志框架概述与SLF4j简介1.1 为什么需要日志框架1.2 主流日志框架对比1.3 SLF4

Spring Boot集成Logback终极指南之从基础到高级配置实战指南

《SpringBoot集成Logback终极指南之从基础到高级配置实战指南》Logback是一个可靠、通用且快速的Java日志框架,作为Log4j的继承者,由Log4j创始人设计,:本文主要介绍... 目录一、Logback简介与Spring Boot集成基础1.1 Logback是什么?1.2 Sprin

C++类和对象之初始化列表的使用方式

《C++类和对象之初始化列表的使用方式》:本文主要介绍C++类和对象之初始化列表的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C++初始化列表详解:性能优化与正确实践什么是初始化列表?初始化列表的三大核心作用1. 性能优化:避免不必要的赋值操作2. 强

Linux高并发场景下的网络参数调优实战指南

《Linux高并发场景下的网络参数调优实战指南》在高并发网络服务场景中,Linux内核的默认网络参数往往无法满足需求,导致性能瓶颈、连接超时甚至服务崩溃,本文基于真实案例分析,从参数解读、问题诊断到优... 目录一、问题背景:当并发连接遇上性能瓶颈1.1 案例环境1.2 初始参数分析二、深度诊断:连接状态与

SpringIOC容器Bean初始化和销毁回调方式

《SpringIOC容器Bean初始化和销毁回调方式》:本文主要介绍SpringIOC容器Bean初始化和销毁回调方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录前言1.@Bean指定初始化和销毁方法2.实现接口3.使用jsR250总结前言Spring Bea