第二门课:改善深层神经网络<超参数调试、正则化及优化>-深度学习的实用层面

本文主要是介绍第二门课:改善深层神经网络<超参数调试、正则化及优化>-深度学习的实用层面,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1 训练集、验证集以及测试集
  • 2 偏差与方差
  • 3 机器学习基础
  • 4 正则化
  • 5 为什么正则化可以减少过拟合?
  • 6 Dropout<随机失活>正则化
  • 7 理解Dropout
  • 8 其他正则化方法
  • 9 归一化输入
  • 10 梯度消失和梯度爆炸
  • 11 神经网络的权重初始化
  • 12 梯度的数值逼近
  • 13 梯度检验
  • 14 关于梯度检验的注记

1 训练集、验证集以及测试集

验证集与测试集要确保来自同一个分布
因为验证集要用来评估不同的模型,尽可能的优化性能
但由于深度学习需要大量的训练数据,为了获取大规模的训练数据集,可以采用当前流行的创意策略,比如:网页抓取,代价就是训练集数据与验证集数据和测试集数据有可能不是来自同一个分布。
测试集的目的是对最终所选定的神经网络系统做出无偏评估
训练集(train set) —— 用于模型拟合的数据样本。
验证集(development set)—— 是模型训练过程中单独留出的样本集,用于调整模型的超参数以及对模型的能力进行初步评估。通常用来在模型迭代训练时,用以验证当前模型泛化能力(准确率,召回率等),以决定是否停止继续训练。
测试集(test set) —— 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

2 偏差与方差

在这里插入图片描述
如果给数据集拟合一条直线,可能得到一个逻辑回归拟合
第一个为偏差高的情况,称为“欠拟合
第二个为复杂程度适中,数据拟合适度的分类器
第三个分类器偏差较高,数据过度拟合
在这里插入图片描述
第一种训练集很好,验证集误差大,可能是过度拟合了训练集,某种程度上,验证机并没有充分利用交叉验证集的作用,则称之为“高方差”。
第二种训练集与验证集相差不多,则证明是训练集拟合度不高,可能会分辨不出目标,即数据欠拟合,则算法高偏差。对于验证集产生的结果是合理的,与上面一张图片的high bias相似。

3 机器学习基础

在这里插入图片描述
首先要知道算法的偏差是否高,如果偏差较高,试着评估训练集或训练数据的性能。如果偏差较高甚至无法拟合训练集,则选择一个新网络,然后反复尝试,直到可以拟合数据为止。如果网络足够大,通常可以很好的拟合训练集。
如果方差高,最好的解决方法就是采用更多数据以及正则化

4 正则化

在这里插入图片描述
只正则化w是因为w通常是高维度矢量,已经可以表达高方差问题,w可能含有很多参数,我们不可能拟合所有参数,而b只是单个数字,所以w几乎涵盖了所有参数,而不是b,如果加了参数b也没有什么太大的影响,因此b只是众多参数中的一个,因此我们通常忽略不计。

在这里插入图片描述

λ是正则化参数,通常使用验证集或交叉验证来配置这个参数。
λ是一个需要调整的超级参数。
L2范数正则化也被称为“权重衰减”
Backprop输出的最初梯度值即反向传播输出的最初梯度值
在这里插入图片描述

5 为什么正则化可以减少过拟合?

在这里插入图片描述
在这里插入图片描述

当 λ 设置的很大的时候,最终W 会变得很接近于 0,神经网络中的很多单元的作用变得很小,整个网络越来越接近逻辑回归。在λ 设置的很大的时候,高方差会变为高偏差,当λ 取得一个适中的值时,不会再存在高偏差以及高方差。
λ 增大时,整个神经网络会计算离线性函数近的值,这个线性函数非常简单,不是复杂的高度非线性函数,不会发生过拟合

6 Dropout<随机失活>正则化

Dropout遍历网络的每一层,并设置消除神经网络中节点的概率,假设每个节点得以保留和消除的概率为0.5,设置完节点概率,消除一部分节点,然后消除从该节点进出的连线,最后得到一个节点更少、规模更小的网络,然后使用backprop进行训练。
在这里插入图片描述
以三层网络为例:

keep_prob = 0.8# 设置神经元保留概率为0.8,消除任意一个隐藏单元的概率是0.2
d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep_prob   
#生成指定维度的的[0,1)范围之间的随机数,输入参数为维度,shape[0]只输出行数,shape[1]只输出列数。矩阵中随机数小于0.8为1,否则为0
a3 = np.multiply(a3, d3)
a3 /= keep_prob  #是为了保证下一层计算的时候期望值不变。

事实上,dropout也是产生权重收缩的效果。
当keep_prob = 1的时候,就会保留原始所有的神经元,即关闭dropout功能
在这里插入图片描述

7 理解Dropout

1、dropout随机删除网络中的神经单元
2、dropout将产生收缩权重的平方范数的效果,和我们之前讲过的L2正则化类似,实施dropout的结果是它会压缩权重,并完成一些预防过拟合的外层正则化。与L2正则化不同的是,被应用的方式不同,dropout也会有所不同,甚至更适用于不同的输入范围。L2对不同权重的衰减是不同的,它取决于倍增的激活函数的大小。
在这里插入图片描述

这是一个拥有三个输入特征的网络,其中一个要选择的参数是keep-prob,即每一层上保留单元的概率。所以不同层的keep-prob也可以变化。第一层,矩阵W[1]是7×3,第二个权重矩阵W[2]是7×7,第三个权重矩阵W[3]是3×7,以此类推,W[2]是最大的权重矩阵,因为拥有最大参数集,即7×7,为了预防矩阵的过拟合,对于这一层(第二层),它的keep-prob值应该相对较低,假设是0.5。对于其它层,过拟合的程度可能没那么严重,它们的keep-prob值可能高一些,可能是0.7,这里是0.7。如果在某一层,不必担心其过拟合的问题,那么keep-prob可以为1。

8 其他正则化方法

除L2正则化和随机失活(dropout)正则化,还有几种方法可以减少神经网络中的过拟合。
1、数据扩增 对于图片数据,可以水平翻转图片或者随意裁剪。对于数字识别,我们还可以通过添加数字,随意旋转或扭曲数字来扩增数据。
在这里插入图片描述

2、early stopping<提早停止训练神经网络>
在这里插入图片描述
在中间停止迭代,我们得到一个w值中等大小的弗罗贝尼乌斯范数,与L2正则化相似,选择参数w范数较小的神经网络。
early stopping的主要缺点不能同时处理过拟合代价函数不够小 的问题
提早停止,可能代价函数 J 不够小。
不提早结束,可能会过拟合。
Early stopping的优点是,只运行一次梯度下降,你可以找出w的较小值,中间值和较大值,而无需尝试L2正则化超级参数的很多值。

9 归一化输入

归一化输入,可以加速训练。它一般需要两个以下步骤:
零均值化(所有的数据减去均值),X等于每个训练数据x减去u,意思是移动训练集,直到它完成零均值化
在这里插入图片描述
2、归一化方差 (所有数据除以方差),由于已经完成了零均值化,把所有数据除以σ平方。这样x1和x2的方差都等于1。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
如果你使用非归一化的输入特征,梯度下降法可能需要多次迭代过程,直到最后找到最小值。
如果进行归一化处理,函数是一个更圆的球形轮廓(右上方),那么不论从哪个位置开始,梯度下降法都能够更直接地找到最小值。

10 梯度消失和梯度爆炸

在这里插入图片描述
在这里插入图片描述
y帽等于1.5^(L-1) x,L越大,y帽越大,呈指数型增长,也称爆炸式增长。相反,如果权重矩阵W的元素都小于1,如0.5,L越大,y帽正比于0.5^L,呈指数型减小,称为数值消失。当各层权重W都大于1或者小于1,当层数很大时,出现数值爆炸或消失。

11 神经网络的权重初始化

可以将神经网络的权重初始化来尝试解决梯度消失和爆炸
在这里插入图片描述
为了预防z值过大或者过小,你可以看到n越大,你希望w_i越小,最合理的方法是设置为w_i = 1/n,n表示神经元的输入特征数量。设置第l层权重矩阵为:
在这里插入图片描述
其中,n^(l-1)是第l-1层神经元的数量。
在这里插入图片描述

12 梯度的数值逼近

在反向传播时,有个测试叫做梯度检验。即计算误差时,我们需要使用双边误差,不使用单边误差,因为前者更准确。
在这里插入图片描述

13 梯度检验

梯度检验使用双边误差进行检验
d\theta i是代价函数的偏导数,d\theta approx与d\theta i有相同的维度,他们两个与\theta具有相同的维度。
检验这些向量是否接近<计算这两个向量的欧氏距离>:
然后用向量长度做归一化

在这里插入图片描述

14 关于梯度检验的注记

1、不要在训练中使用梯度检验,它只用于调试。为了实施梯度下降,你必须使用W和b反向传播来计算dθ,只有调试的时候才会计算它。
2、如果算法的梯度检验失败,要检查所有项,检查每一项,并试着找出bug。注意θ的各项与b和w的各项都是一一对应的。
3、在实施梯度检验时,如果使用正则化,请注意正则项。
4、梯度检验不能与dropout同时使用,因为每次迭代过程中,dropout会随机消除隐藏层单元的不同子集,难以计算dropout在梯度下降上的代价函数J。

这篇关于第二门课:改善深层神经网络<超参数调试、正则化及优化>-深度学习的实用层面的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/790383

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Java服务实现开启Debug远程调试

《Java服务实现开启Debug远程调试》文章介绍如何通过JVM参数开启Java服务远程调试,便于在线上排查问题,在IDEA中配置客户端连接,实现无需频繁部署的调试,提升效率... 目录一、背景二、相关图示说明三、具体操作步骤1、服务端配置2、客户端配置总结一、背景日常项目中,通常我们的代码都是部署到远程

5 种使用Python自动化处理PDF的实用方法介绍

《5种使用Python自动化处理PDF的实用方法介绍》自动化处理PDF文件已成为减少重复工作、提升工作效率的重要手段,本文将介绍五种实用方法,从内置工具到专业库,帮助你在Python中实现PDF任务... 目录使用内置库(os、subprocess)调用外部工具使用 PyPDF2 进行基本 PDF 操作使用

C#中通过Response.Headers设置自定义参数的代码示例

《C#中通过Response.Headers设置自定义参数的代码示例》:本文主要介绍C#中通过Response.Headers设置自定义响应头的方法,涵盖基础添加、安全校验、生产实践及调试技巧,强... 目录一、基础设置方法1. 直接添加自定义头2. 批量设置模式二、高级配置技巧1. 安全校验机制2. 类型

MySQL批量替换数据库字符集的实用方法(附详细代码)

《MySQL批量替换数据库字符集的实用方法(附详细代码)》当需要修改数据库编码和字符集时,通常需要对其下属的所有表及表中所有字段进行修改,下面:本文主要介绍MySQL批量替换数据库字符集的实用方法... 目录前言为什么要批量修改字符集?整体脚本脚本逻辑解析1. 设置目标参数2. 生成修改表默认字符集的语句3

Docker多阶段镜像构建与缓存利用性能优化实践指南

《Docker多阶段镜像构建与缓存利用性能优化实践指南》这篇文章将从原理层面深入解析Docker多阶段构建与缓存机制,结合实际项目示例,说明如何有效利用构建缓存,组织镜像层次,最大化提升构建速度并减少... 目录一、技术背景与应用场景二、核心原理深入分析三、关键 dockerfile 解读3.1 Docke

JavaScript中的高级调试方法全攻略指南

《JavaScript中的高级调试方法全攻略指南》什么是高级JavaScript调试技巧,它比console.log有何优势,如何使用断点调试定位问题,通过本文,我们将深入解答这些问题,带您从理论到实... 目录观点与案例结合观点1观点2观点3观点4观点5高级调试技巧详解实战案例断点调试:定位变量错误性能分