第二门课:改善深层神经网络<超参数调试、正则化及优化>-深度学习的实用层面

本文主要是介绍第二门课:改善深层神经网络<超参数调试、正则化及优化>-深度学习的实用层面,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1 训练集、验证集以及测试集
  • 2 偏差与方差
  • 3 机器学习基础
  • 4 正则化
  • 5 为什么正则化可以减少过拟合?
  • 6 Dropout<随机失活>正则化
  • 7 理解Dropout
  • 8 其他正则化方法
  • 9 归一化输入
  • 10 梯度消失和梯度爆炸
  • 11 神经网络的权重初始化
  • 12 梯度的数值逼近
  • 13 梯度检验
  • 14 关于梯度检验的注记

1 训练集、验证集以及测试集

验证集与测试集要确保来自同一个分布
因为验证集要用来评估不同的模型,尽可能的优化性能
但由于深度学习需要大量的训练数据,为了获取大规模的训练数据集,可以采用当前流行的创意策略,比如:网页抓取,代价就是训练集数据与验证集数据和测试集数据有可能不是来自同一个分布。
测试集的目的是对最终所选定的神经网络系统做出无偏评估
训练集(train set) —— 用于模型拟合的数据样本。
验证集(development set)—— 是模型训练过程中单独留出的样本集,用于调整模型的超参数以及对模型的能力进行初步评估。通常用来在模型迭代训练时,用以验证当前模型泛化能力(准确率,召回率等),以决定是否停止继续训练。
测试集(test set) —— 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

2 偏差与方差

在这里插入图片描述
如果给数据集拟合一条直线,可能得到一个逻辑回归拟合
第一个为偏差高的情况,称为“欠拟合
第二个为复杂程度适中,数据拟合适度的分类器
第三个分类器偏差较高,数据过度拟合
在这里插入图片描述
第一种训练集很好,验证集误差大,可能是过度拟合了训练集,某种程度上,验证机并没有充分利用交叉验证集的作用,则称之为“高方差”。
第二种训练集与验证集相差不多,则证明是训练集拟合度不高,可能会分辨不出目标,即数据欠拟合,则算法高偏差。对于验证集产生的结果是合理的,与上面一张图片的high bias相似。

3 机器学习基础

在这里插入图片描述
首先要知道算法的偏差是否高,如果偏差较高,试着评估训练集或训练数据的性能。如果偏差较高甚至无法拟合训练集,则选择一个新网络,然后反复尝试,直到可以拟合数据为止。如果网络足够大,通常可以很好的拟合训练集。
如果方差高,最好的解决方法就是采用更多数据以及正则化

4 正则化

在这里插入图片描述
只正则化w是因为w通常是高维度矢量,已经可以表达高方差问题,w可能含有很多参数,我们不可能拟合所有参数,而b只是单个数字,所以w几乎涵盖了所有参数,而不是b,如果加了参数b也没有什么太大的影响,因此b只是众多参数中的一个,因此我们通常忽略不计。

在这里插入图片描述

λ是正则化参数,通常使用验证集或交叉验证来配置这个参数。
λ是一个需要调整的超级参数。
L2范数正则化也被称为“权重衰减”
Backprop输出的最初梯度值即反向传播输出的最初梯度值
在这里插入图片描述

5 为什么正则化可以减少过拟合?

在这里插入图片描述
在这里插入图片描述

当 λ 设置的很大的时候,最终W 会变得很接近于 0,神经网络中的很多单元的作用变得很小,整个网络越来越接近逻辑回归。在λ 设置的很大的时候,高方差会变为高偏差,当λ 取得一个适中的值时,不会再存在高偏差以及高方差。
λ 增大时,整个神经网络会计算离线性函数近的值,这个线性函数非常简单,不是复杂的高度非线性函数,不会发生过拟合

6 Dropout<随机失活>正则化

Dropout遍历网络的每一层,并设置消除神经网络中节点的概率,假设每个节点得以保留和消除的概率为0.5,设置完节点概率,消除一部分节点,然后消除从该节点进出的连线,最后得到一个节点更少、规模更小的网络,然后使用backprop进行训练。
在这里插入图片描述
以三层网络为例:

keep_prob = 0.8# 设置神经元保留概率为0.8,消除任意一个隐藏单元的概率是0.2
d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep_prob   
#生成指定维度的的[0,1)范围之间的随机数,输入参数为维度,shape[0]只输出行数,shape[1]只输出列数。矩阵中随机数小于0.8为1,否则为0
a3 = np.multiply(a3, d3)
a3 /= keep_prob  #是为了保证下一层计算的时候期望值不变。

事实上,dropout也是产生权重收缩的效果。
当keep_prob = 1的时候,就会保留原始所有的神经元,即关闭dropout功能
在这里插入图片描述

7 理解Dropout

1、dropout随机删除网络中的神经单元
2、dropout将产生收缩权重的平方范数的效果,和我们之前讲过的L2正则化类似,实施dropout的结果是它会压缩权重,并完成一些预防过拟合的外层正则化。与L2正则化不同的是,被应用的方式不同,dropout也会有所不同,甚至更适用于不同的输入范围。L2对不同权重的衰减是不同的,它取决于倍增的激活函数的大小。
在这里插入图片描述

这是一个拥有三个输入特征的网络,其中一个要选择的参数是keep-prob,即每一层上保留单元的概率。所以不同层的keep-prob也可以变化。第一层,矩阵W[1]是7×3,第二个权重矩阵W[2]是7×7,第三个权重矩阵W[3]是3×7,以此类推,W[2]是最大的权重矩阵,因为拥有最大参数集,即7×7,为了预防矩阵的过拟合,对于这一层(第二层),它的keep-prob值应该相对较低,假设是0.5。对于其它层,过拟合的程度可能没那么严重,它们的keep-prob值可能高一些,可能是0.7,这里是0.7。如果在某一层,不必担心其过拟合的问题,那么keep-prob可以为1。

8 其他正则化方法

除L2正则化和随机失活(dropout)正则化,还有几种方法可以减少神经网络中的过拟合。
1、数据扩增 对于图片数据,可以水平翻转图片或者随意裁剪。对于数字识别,我们还可以通过添加数字,随意旋转或扭曲数字来扩增数据。
在这里插入图片描述

2、early stopping<提早停止训练神经网络>
在这里插入图片描述
在中间停止迭代,我们得到一个w值中等大小的弗罗贝尼乌斯范数,与L2正则化相似,选择参数w范数较小的神经网络。
early stopping的主要缺点不能同时处理过拟合代价函数不够小 的问题
提早停止,可能代价函数 J 不够小。
不提早结束,可能会过拟合。
Early stopping的优点是,只运行一次梯度下降,你可以找出w的较小值,中间值和较大值,而无需尝试L2正则化超级参数的很多值。

9 归一化输入

归一化输入,可以加速训练。它一般需要两个以下步骤:
零均值化(所有的数据减去均值),X等于每个训练数据x减去u,意思是移动训练集,直到它完成零均值化
在这里插入图片描述
2、归一化方差 (所有数据除以方差),由于已经完成了零均值化,把所有数据除以σ平方。这样x1和x2的方差都等于1。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
如果你使用非归一化的输入特征,梯度下降法可能需要多次迭代过程,直到最后找到最小值。
如果进行归一化处理,函数是一个更圆的球形轮廓(右上方),那么不论从哪个位置开始,梯度下降法都能够更直接地找到最小值。

10 梯度消失和梯度爆炸

在这里插入图片描述
在这里插入图片描述
y帽等于1.5^(L-1) x,L越大,y帽越大,呈指数型增长,也称爆炸式增长。相反,如果权重矩阵W的元素都小于1,如0.5,L越大,y帽正比于0.5^L,呈指数型减小,称为数值消失。当各层权重W都大于1或者小于1,当层数很大时,出现数值爆炸或消失。

11 神经网络的权重初始化

可以将神经网络的权重初始化来尝试解决梯度消失和爆炸
在这里插入图片描述
为了预防z值过大或者过小,你可以看到n越大,你希望w_i越小,最合理的方法是设置为w_i = 1/n,n表示神经元的输入特征数量。设置第l层权重矩阵为:
在这里插入图片描述
其中,n^(l-1)是第l-1层神经元的数量。
在这里插入图片描述

12 梯度的数值逼近

在反向传播时,有个测试叫做梯度检验。即计算误差时,我们需要使用双边误差,不使用单边误差,因为前者更准确。
在这里插入图片描述

13 梯度检验

梯度检验使用双边误差进行检验
d\theta i是代价函数的偏导数,d\theta approx与d\theta i有相同的维度,他们两个与\theta具有相同的维度。
检验这些向量是否接近<计算这两个向量的欧氏距离>:
然后用向量长度做归一化

在这里插入图片描述

14 关于梯度检验的注记

1、不要在训练中使用梯度检验,它只用于调试。为了实施梯度下降,你必须使用W和b反向传播来计算dθ,只有调试的时候才会计算它。
2、如果算法的梯度检验失败,要检查所有项,检查每一项,并试着找出bug。注意θ的各项与b和w的各项都是一一对应的。
3、在实施梯度检验时,如果使用正则化,请注意正则项。
4、梯度检验不能与dropout同时使用,因为每次迭代过程中,dropout会随机消除隐藏层单元的不同子集,难以计算dropout在梯度下降上的代价函数J。

这篇关于第二门课:改善深层神经网络<超参数调试、正则化及优化>-深度学习的实用层面的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/790383

相关文章

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Golang 日志处理和正则处理的操作方法

《Golang日志处理和正则处理的操作方法》:本文主要介绍Golang日志处理和正则处理的操作方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录1、logx日志处理1.1、logx简介1.2、日志初始化与配置1.3、常用方法1.4、配合defer

IDEA如何实现远程断点调试jar包

《IDEA如何实现远程断点调试jar包》:本文主要介绍IDEA如何实现远程断点调试jar包的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录问题步骤总结问题以jar包的形式运行Spring Boot项目时报错,但是在IDEA开发环境javascript下编译

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

MySQL 添加索引5种方式示例详解(实用sql代码)

《MySQL添加索引5种方式示例详解(实用sql代码)》在MySQL数据库中添加索引可以帮助提高查询性能,尤其是在数据量大的表中,下面给大家分享MySQL添加索引5种方式示例详解(实用sql代码),... 在mysql数据库中添加索引可以帮助提高查询性能,尤其是在数据量大的表中。索引可以在创建表时定义,也可

JDK9到JDK21中值得掌握的29个实用特性分享

《JDK9到JDK21中值得掌握的29个实用特性分享》Java的演进节奏从JDK9开始显著加快,每半年一个新版本的发布节奏为Java带来了大量的新特性,本文整理了29个JDK9到JDK21中值得掌握的... 目录JDK 9 模块化与API增强1. 集合工厂方法:一行代码创建不可变集合2. 私有接口方法:接口

Spring Boot拦截器Interceptor与过滤器Filter深度解析(区别、实现与实战指南)

《SpringBoot拦截器Interceptor与过滤器Filter深度解析(区别、实现与实战指南)》:本文主要介绍SpringBoot拦截器Interceptor与过滤器Filter深度解析... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现与实

MyBatis分页插件PageHelper深度解析与实践指南

《MyBatis分页插件PageHelper深度解析与实践指南》在数据库操作中,分页查询是最常见的需求之一,传统的分页方式通常有两种内存分页和SQL分页,MyBatis作为优秀的ORM框架,本身并未提... 目录1. 为什么需要分页插件?2. PageHelper简介3. PageHelper集成与配置3.

一文详解PostgreSQL复制参数

《一文详解PostgreSQL复制参数》PostgreSQL作为一款功能强大的开源关系型数据库,其复制功能对于构建高可用性系统至关重要,本文给大家详细介绍了PostgreSQL的复制参数,需要的朋友可... 目录一、复制参数基础概念二、核心复制参数深度解析1. max_wal_seChina编程nders:WAL