Datawhale AI 夏令营(第五期) 李宏毅苹果书 Task 1 《深度学习详解(进阶)》

本文主要是介绍Datawhale AI 夏令营(第五期) 李宏毅苹果书 Task 1 《深度学习详解(进阶)》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

纸质版教材指路(享五折优惠~):京东网上商城

李宏毅老师对应视频课程:​请注意文字和视频搭配食用哟~

神经网络训练不起来怎么办(1):局部最小值(:Loacl Minima)与鞍点(Saddle Point)_哔哩哔哩_bilibili神经网络训练不起来怎么办(2):批次(batch)与动量(Momentum)_哔哩哔哩_bilibili

Task 1.1 《深度学习详解》- 3.1 局部极小值与鞍点

隐藏任务①:搜索资料,找到一个优化失败的案例,尝试用自己的话描述一遍情况~

案例: 深度学习模型在训练过程中,损失函数在一段时间后停止下降,并且无法继续收敛。

情况描述

  • 问题出现: 研究人员训练一个深度学习模型进行图像分类任务。在训练初期,损失函数逐渐下降,模型性能不断提高。然而,随着训练的进行,损失函数在某个点停止下降,并且无论怎样调整学习率或参数,都无法让损失函数继续下降。
  • 原因分析
    • 研究人员怀疑模型遇到了局部极小值或鞍点。
    • 局部极小值意味着模型已经到达当前训练空间内的最低点,无法进一步降低损失。
    • 鞍点则意味着模型处于一个“平坦”的区域,周围既有下降的方向,也有上升的方向,梯度为零,导致模型无法继续更新。
  • 解决方案尝试
    • 研究人员尝试了多种方法来逃离这个“陷阱”:
      • 调整学习率: 降低学习率,让模型在损失函数曲面上更加缓慢地移动,试图找到一条通往更低损失的道路。
      • 使用随机初始化: 重新初始化模型的参数,让模型从不同的起点开始训练,尝试找到不同的路径。
      • 使用正则化技术: 添加正则化项,防止模型过拟合,并增加损失函数曲面的平滑度,降低遇到鞍点的可能性。
      • 使用更复杂的优化算法: 例如Adam、SGD with momentum等,这些算法可以更好地处理鞍点,并帮助模型找到更好的路径。
  • 结果
    • 尝试了多种方法后,研究人员发现模型仍然无法逃离这个“陷阱”。
    • 最终,他们不得不放弃这个模型,并重新设计网络结构或选择其他模型。

这个案例说明了深度学习优化过程中可能遇到的挑战。局部极小值和鞍点都可能导致优化失败,需要研究人员采取各种方法来应对。

隐藏任务②:过一遍文档,给自己的理解程度打一个分数,如果低于30%,尝试配合视频食用,另外尝试问问AI,在这条任务下评论找到的参考资料和补充信息!

打分:50%吧。

局部极小值与鞍点:它解释了为什么优化可能会失败,以及如何判断和应对这些情况。

主要内容

  • 临界点及其种类
    • 临界点是梯度为零的点,包括局部极小值、局部极大值和鞍点。
    • 局部极小值是损失函数的局部最低点,鞍点则不是,它在某些方向上损失会上升,在另一些方向上则会下降。
  • 判断临界点种类的方法
    • 通过计算海森矩阵的特征值来判断:
      • 所有特征值为正:局部极小值
      • 所有特征值为负:局部极大值
      • 特征值有正有负:鞍点
    • 文档中通过一个简单的神经网络例子,展示了如何通过海森矩阵判断临界点种类。
  • 逃离鞍点的方法
    • 鞍点在深度学习中很常见,但并非无法逃离。
    • 文档探讨了利用海森矩阵的特征向量找到更新参数的方向,从而逃离鞍点。
    • 但实际中计算海森矩阵的运算量很大,因此需要寻找更高效的方法。
  • 局部极小值与鞍点的常见性
    • 通过经验和实验,发现鞍点比局部极小值更常见。
    • 这意味着在深度学习中,优化失败的原因往往是遇到鞍点,而非局部极小值。

Task 1.2 《深度学习详解》- 3.2 批量和动量
 

批量和动量

批量大小对梯度下降法的影响

  • 批量梯度下降 (BGD): 使用所有训练数据计算梯度,每次更新更稳定、更准确,但计算量大。
  • 随机梯度下降 (SGD): 使用单条数据计算梯度,更新频率高,但引入噪声,更新方向曲折。
  • 小批量梯度下降 (Mini-batch GD): 结合了 BGD 和 SGD 的优点,使用固定大小的数据批量计算梯度,平衡了计算量和更新稳定性。
  • 批量大小的影响:
    • 计算时间: 小批量更新速度快,但回合时间长;大批量回合时间短,但更新速度慢。
    • 优化效果: 小批量容易跳出局部最小值,优化效果更好;大批量更新方向稳定,但容易陷入局部最小值。
    • 泛化能力: 小批量泛化能力更强,大批量容易过拟合。

动量法

  • 原理: 受物理世界惯性启发,将前一步的更新方向与当前梯度方向结合,形成更平滑的更新路径,帮助模型跳出局部最小值或鞍点。
  • 公式$m_t = \lambda m_{t-1} - \eta g_t$,其中$m_t$是动量项,$\lambda$是动量系数,$\eta$ 是学习率,$g_t$是当前梯度。
  • 好处:
    • 避免梯度下降在局部最小值或鞍点停滞不前。
    • 加速收敛,提高训练效率。

自适应学习率

  • 问题: 训练过程中可能会遇到梯度接近零但损失不再下降的情况,即临界点。
  • 原因: 梯度在山谷谷壁间震荡,导致损失无法进一步减小。
  • 解决方法: 使用自适应学习率算法,例如 Adam、RMSprop 等,根据梯度大小动态调整学习率,避免陷入临界点。

总结:批量大小和动量是深度学习中重要的优化技术,它们可以影响模型的训练速度、收敛性和泛化能力。选择合适的批量大小和动量系数需要根据具体任务和数据集进行调整。

这篇关于Datawhale AI 夏令营(第五期) 李宏毅苹果书 Task 1 《深度学习详解(进阶)》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1103901

相关文章

MySQL数据库双机热备的配置方法详解

《MySQL数据库双机热备的配置方法详解》在企业级应用中,数据库的高可用性和数据的安全性是至关重要的,MySQL作为最流行的开源关系型数据库管理系统之一,提供了多种方式来实现高可用性,其中双机热备(M... 目录1. 环境准备1.1 安装mysql1.2 配置MySQL1.2.1 主服务器配置1.2.2 从

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本,并kill2.1 进程查看2.2 遇到的

MyBatis常用XML语法详解

《MyBatis常用XML语法详解》文章介绍了MyBatis常用XML语法,包括结果映射、查询语句、插入语句、更新语句、删除语句、动态SQL标签以及ehcache.xml文件的使用,感兴趣的朋友跟随小... 目录1、定义结果映射2、查询语句3、插入语句4、更新语句5、删除语句6、动态 SQL 标签7、ehc

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

k8s按需创建PV和使用PVC详解

《k8s按需创建PV和使用PVC详解》Kubernetes中,PV和PVC用于管理持久存储,StorageClass实现动态PV分配,PVC声明存储需求并绑定PV,通过kubectl验证状态,注意回收... 目录1.按需创建 PV(使用 StorageClass)创建 StorageClass2.创建 PV

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1