深度学习笔记(十六)正则化(L2 dropout 数据扩增 Earlystopping)

本文主要是介绍深度学习笔记(十六)正则化(L2 dropout 数据扩增 Earlystopping),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

如果训练的模型过拟合,也就是高方差,我们首先想到的是正则化。高方差的解决方法有准备充足的数据,但是有时候我们无法找到足够的数据。下文详细说明正则化方法,包括L2正则化(菲罗贝尼乌斯)、dropout机制、数据扩增、Early stopping。

一、逻辑回归中的正则化

需要求得损失函数 J ( w , b ) J(w,b) J(w,b)的最小值,已知
J ( w , b ) = 1 m ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) J(w,b)=\frac{1}{m} \sum_{i=1}^m L(\widehat{y}^{(i)},y^{(i)}) J(w,b)=m1i=1mL(y (i),y(i))
在此基础上添加正则化参数 λ \lambda λ
J ( w , b ) = 1 m ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) + λ 2 m ∣ ∣ w ∣ ∣ 2 2 J(w,b)=\frac{1}{m} \sum_{i=1}^m L(\widehat{y}^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||_2^2 J(w,b)=m1i=1mL(y (i),y(i))+2mλw22
其中 w w w的欧几里得范数的平方等于元素平方和
L 2 r e g u l a r i z a t i o n : ∣ ∣ w ∣ ∣ 2 2 = ∑ j = 1 n x w j 2 = w T w L2 regularization:||w||_2^2=\sum_{j=1}^{n_x} w_j^2=w^Tw L2regularization:w22=j=1nxwj2=wTw
为什么省略b,因为w通常是一个高维参数矢量,已经可以表达高方差的情况,b对参数影响并不显著。
L 1 : λ 2 m ∑ j = 1 n x ∣ w j ∣ = λ 2 m ∣ ∣ w ∣ ∣ 1 L1:\frac{\lambda}{2m} \sum_{j=1}^{n_x}|w_j|=\frac{\lambda}{2m}||w||_1 L1:2mλj=1nxwj=2mλw1
如果用L1正则化,W向量会很稀疏,会有很多0,有人说利于压缩模型,实际上并没有降低很多内存。我们更倾向于L2正则化。顺便说, λ \lambda λ这个参数也是一个超参数,需要尝试哪个取值才是最优取值,为了方便编程,在Python中 λ \lambda λ是保留字段,编程通常写作lambd作为正则化参数变量。

二、神经网络中的L2正则化

J ( w , b ) = 1 m ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) + λ 2 m ∑ l = 1 L ∣ ∣ w [ l ] ∣ ∣ F 2 J(w,b)=\frac{1}{m} \sum_{i=1}^m L(\widehat{y}^{(i)},y^{(i)})+\frac{\lambda}{2m}\sum_{l=1}^L ||w^{[l]}||_F^2 J(w,b)=m1i=1mL(y (i),y(i))+2mλl=1Lw[l]F2
其中,
∣ ∣ w [ l ] ∣ ∣ F 2 = ∑ i = 1 n [ l − 1 ] ∑ j = 1 n [ 1 ] ( w i j [ l ] ) 2 ||w^{[l]}||_F^2=\sum_{i=1}^{n^{[l-1]}}\sum_{j=1}^{n^{[1]}}(w_{ij}^{[l]})^2 w[l]F2=i=1n[l1]j=1n[1](wij[l])2
L2范数,按照惯例称之为:Frobenius 菲罗贝尼乌斯范数,即矩阵中所有元素的平方和。

反向传播
d w [ l ] = ( f r o m b a c k p r o p ) + λ 2 m w [ l ] dw^{[l]}=(from backprop)+\frac{\lambda}{2m}w^{[l]} dw[l]=(frombackprop)+2mλw[l]

w [ l ] = w [ l ] − α d w [ l ] w^{[l]}=w^{[l]}-\alpha dw^{[l]} w[l]=w[l]αdw[l]

L2正则化被称作权重衰减的原因
w [ l ] = w [ l ] − α [ ( f r o m b a c k p r o p ) + λ 2 m w [ l ] ] w^{[l]}=w^{[l]}-\alpha[(from backprop)+\frac{\lambda}{2m}w^{[l]}] w[l]=w[l]α[(frombackprop)+2mλw[l]]

w [ l ] = w [ l ] − α λ 2 m w [ l ] − α ( f r o m b a c k p r o p ) w^{[l]}=w^{[l]}-\frac{\alpha \lambda}{2m}w^{[l]}-\alpha(frombackprop) w[l]=w[l]2mαλw[l]α(frombackprop)

从上面的式子可以看到,不管w是什么,总是试图使w变得更小。实际上是给w矩阵乘上了小于1的系数 1 − α λ 2 m 1-\frac{\alpha \lambda}{2m} 12mαλ

三、为什么正则化可以防止过拟合?

在这里插入图片描述
直觉经验告诉我们, λ \lambda λ足够大的时候,使得w权重小到0,那么神经网络中的隐藏单元失效(在初始化权重那一课有讲),这样网络结构更趋近于逻辑回归,所以防止了高方差(过拟合)的情况。

在这里插入图片描述
λ \lambda λ足够大的时候,w会变得很小,z同样会变得很小,在激活函数上落在近似线性的部分上。(在激活函数使用非线性那一课中讲到)隐藏层的激活函数是线性的,这个网络就是线性网络,不管网络有多深,实际上起不到更好的训练效果,模型趋近于逻辑回归,不会发生过拟合的情况。

为了调试梯度下降,务必使用新定义的J函数,包含正则化项,否则J可能不会在所有调幅范围内都单调递减。

四、dropout

除了L2正则化方法,还有非常使用的正则化方法——dropout(随机失活)
dropout会遍历网络每一层,并设置消除神经网络中节点的概率。通过前面的内容,一定很容易理解为什么dropout可以防止过拟合了,因为随机扔弃一部分节点后,网络结构变得更小,更趋近线性拟合,过拟合的可能性更小。
在这里插入图片描述

Inverted dropout的实现

keep_prob = 0.8
d3 = np.random.rand(a3.shape[0], a3.shape[1]) < keep_prob
a3 = np.multiply(a3, d3)
a3 /= keep_prob

反向随机失活最后除以keep_prob确保a3的期望值不变。

五、dropout深入理解

在这里插入图片描述

  • 每一层有不同的keep_prob保留值,根据每一层具体情况,参数多容易过拟合应当降低keep_prob的取值
  • 输入层应尽可能接近1,因为是输入的是所需特征
  • 缺点是为了使用交叉验证,需要搜索更多超级参数
  • dropout在计算机视觉CV中应用频繁,维度很大但是数据较少
  • 除非过拟合,我们不应该使用dropout
  • 缺点还有代价函数很难明确定义(要求加入正则化项后J函数单减),通常做法是关闭dropout,将keep_prob设置为1.0后运行代码确保函数递减,再打开dropout函数。

六、其他正则化方法

数据扩增

  • 水平翻转
  • 随意裁剪
    在这里插入图片描述
  • 随意旋转
  • 扭曲数字
    在这里插入图片描述
    Early stopping
    在这里插入图片描述
    考虑两方面:
  • 选择算法优化代价函数J
    • 梯度下降
    • Momentum
    • RMSprop
    • Adam
  • 回避过拟合问题
    • 正则化
    • 扩增数据

提前停止训练不能同时解决如上两个问题。L2正则化通过尝试不同的正则化参数,但是需要承担很大的计算代价,如果不能承受很大的计算代价,early stopping也可以得到相似的结果。

这篇关于深度学习笔记(十六)正则化(L2 dropout 数据扩增 Earlystopping)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/500297

相关文章

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

深度解析Java DTO(最新推荐)

《深度解析JavaDTO(最新推荐)》DTO(DataTransferObject)是一种用于在不同层(如Controller层、Service层)之间传输数据的对象设计模式,其核心目的是封装数据,... 目录一、什么是DTO?DTO的核心特点:二、为什么需要DTO?(对比Entity)三、实际应用场景解析

深度解析Java项目中包和包之间的联系

《深度解析Java项目中包和包之间的联系》文章浏览阅读850次,点赞13次,收藏8次。本文详细介绍了Java分层架构中的几个关键包:DTO、Controller、Service和Mapper。_jav... 目录前言一、各大包1.DTO1.1、DTO的核心用途1.2. DTO与实体类(Entity)的区别1

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》:本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后,在安装目录下会有一个data目录,我们创建的数据库、创建的表、插入的

深度解析Python装饰器常见用法与进阶技巧

《深度解析Python装饰器常见用法与进阶技巧》Python装饰器(Decorator)是提升代码可读性与复用性的强大工具,本文将深入解析Python装饰器的原理,常见用法,进阶技巧与最佳实践,希望可... 目录装饰器的基本原理函数装饰器的常见用法带参数的装饰器类装饰器与方法装饰器装饰器的嵌套与组合进阶技巧

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

《深度解析SpringBoot拦截器Interceptor与过滤器Filter的区别与实战指南》本文深度解析SpringBoot中拦截器与过滤器的区别,涵盖执行顺序、依赖关系、异常处理等核心差异,并... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现