Datawhale X 李宏毅苹果书 AI夏令营(深度学习 之 实践方法论)

本文主要是介绍Datawhale X 李宏毅苹果书 AI夏令营(深度学习 之 实践方法论),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、模型偏差

模型偏差是指的是模型预测结果与真实值之间的差异,这种差异不是由随机因素引起的,而是由模型本身的局限性或训练数据的特性所导致的。

简单来讲,就是由于初期设定模型,给定的模型计算能力过弱,导致在通过梯度下降法进行优化以得到损失最小的函数过程中,模型表现太差,结果如同想要在大海里面捞针(一个损失低的函数),结果针根本就不在海里。
在这里插入图片描述

1.1、解决方案:

  • 重新设计一个模型,给模型更大的灵活性增加更多特征;
  • 通过增加模型的隐藏层数、神经元数量或采用更复杂的网络结构来提高模型的拟合能力;
  • 通过结合多个模型的预测结果来提高整体预测的准确性和稳定性;

2、优化问题

一般会使用梯度下降法找最优拟合函数,往往无法找到一个真的可以让损失很低的参数。当训练数据的损失不够低的时候,需要考虑的是 到底是模型的偏差,还是优化的问题。可能可能选择的模型已经够灵活了,但是优化梯度下降力度不够;可能是学习率设置时使用固定学习率,在优化后期出现了“震荡”/“停滞”。
在这里插入图片描述

2.1、解决方案

  • 结合多个模型比较,通过比较不同的模型来判断模型现在到底够不够大。(可以先跑一些比较小的、比较浅的网络,或甚至用一些非深度学习的方法,比如线性模型、支持向量机(Support Vector Machine,SVM))

在这里插入图片描述

3、过拟合

过拟合(Overfitting)是深度学习中一个常见的问题,指的是模型在训练数据上表现得太好,以至于它学习了训练数据中的噪声和细节,而这些噪声和细节并不适用于新的、未见过的数据。结果,模型在训练集上表现优异,但在测试集或实际应用中的泛化能力却很差。
在这里插入图片描述

3.1、解决方案一:增加训练集数据

往往是最有效的

如图,当训练集数据增加时,直观上看,模型的灵活性被限制住了,更不容易过拟合训练集数据;实际上,更多的训练集数据,更能够反应真实的数据分布,由此训练得到的模型也更能够在测试集上有不错的结果。
在这里插入图片描述

解决方案二:限制模型

  • 给模型比较少的参数;
  • 用更少的特征;
  • 正则化(regularization)
    L1正则化和L2正则化:通过在损失函数中添加一个正则项(通常是权重向量的L1或L2范数),来限制模型的复杂度。 Dropout:在训练过程中随机丢弃一部分神经元,以减少神经元之间的共适应关系,从而防止过拟合。
import torch.optim as optim
# 在定义优化器的时候使用weight_decay参数进行L2正则化
optimizer = optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-4)
  • 丢弃法(dropout)
import torch.nn as nnclass MyModel(nn.Module):def __init__(self):super().__init__()self.fc1 = nn.Linear(784, 256)# 定义dropout层self.dropout = nn.Dropout(p=0.5)self.fc2 = nn.Linear(256, 10)def forward(self, x):x = torch.relu(self.fc1(x))x = self.dropout(x)x = self.fc2(x)return x
  • 早停法(Early Stopping)

    在训练过程中监控模型在验证集上的表现,一旦性能开始下降,就停止训练。
    在这里插入图片描述

3.2、交叉验证

比较合理选择模型的方法是把训练的数据分成两半,一部分称为训练集(training set),一部分是验证集(validation set)。比如 90% 的数据作为训练集,有 10% 的数据作为验证集。用training set中的数据训练模型,用validation set中的数据挑选模型。

理想上就用验证集挑就好,有过比较好的基线(baseline)算法以后,就不要再去动它了,就可以避免在测试集上面过拟合。

k 折交叉验证

from sklearn.model_selection import KFoldconfig = {"k_fold": 5,"num_epochs": 50,"batch_size": 16,"learning_rate": 0.001
}
# 定义KFold交叉验证器
kfold = KFold(n_split=k_folds, shuffle=True)
for fold, (train_idx, val_idx) in enumerate(kfold.split(x)):X_train, X_val = X[train_idx], X[val_idx]y_train, y_val = y[train_idx], y[val_idx]train_dataset = TensorDataset(X_train, y_train)val_dataset = TensorDataset(X_val, y_val)train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)...

4、不匹配

数据不匹配问题:数据分布不匹配是指在不同数据集之间存在较大差异,这通常会导致在一个数据集上训练好的模型在另一个数据集上表现不佳。这种不匹配可能源于数据采集的环境、设备、时间等因素的差异,以及数据本身的性质、规模、类别分布等因素的不同。

解决方案

针对数据分布不匹配问题,可以采取以下多种方法来解决:

  • 数据增强:
    对数据集进行一定的变换,如旋转、翻转、缩放、裁剪、添加噪声等,以增加数据的多样性,从而使模型更具鲁棒性。这种方法可以模拟真实世界中数据的各种变化,提高模型对未知数据的适应能力。
  • 迁移学习:
    利用在一个数据集上训练好的模型,通过微调(fine-tuning)或特征提取(feature extraction)的方式,将其应用到另一个数据集上。这种方法可以充分利用已有模型的知识,减少在新数据集上训练模型的时间和资源消耗,同时减少数据分布不匹配带来的影响。
  • 样本增强:
    如果两个数据集中的样本类别分布不均匀,可以通过过采样(oversampling)或欠采样(undersampling)等方法来平衡样本类别。过采样是增加少数类样本的数量,而欠采样是减少多数类样本的数量,以达到类别平衡的目的。这种方法可以提高模型在不同类别上的泛化能力。
  • 领域适应方法:
    通过在不同数据集之间学习领域适应的特征表示,可以减少数据分布不匹配带来的影响。例如,可以使用对抗训练(adversarial training)或领域对抗神经网络(Domain-Adversarial Neural Network, DANN)等方法来学习领域不变的特征表示。这些方法可以在保留数据主要特征的同时,减少领域差异对模型性能的影响。
  • 动态调整模型:
    在训练过程中监控模型在不同数据集上的表现,并根据实时表现调整学习率、更新策略等超参数。这种方法可以根据模型的实时反馈来动态调整训练过程,提高模型的泛化能力。
  • 模型优化:
    进一步优化模型结构和算法,提高模型的准确性和泛化能力。例如,可以采用更复杂的网络结构、更先进的优化算法等来提高模型的性能。
  • 多模态数据处理:
    将不同类型的数据进行融合和处理,提高模型的复杂度和适应性。例如,在图像分类任务中,可以结合文本、声音等多模态数据来提高分类的准确性。

这些方法可以在不同程度上提高模型的泛化能力和性能表现。在实际应用中,可以根据具体问题和数据集的特点选择合适的方法来解决不匹配问题。

在这里插入图片描述
补充学习地址:
李宏毅《机器学习/深度学习》2021课程

这篇关于Datawhale X 李宏毅苹果书 AI夏令营(深度学习 之 实践方法论)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1134967

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

JDK21对虚拟线程的几种用法实践指南

《JDK21对虚拟线程的几种用法实践指南》虚拟线程是Java中的一种轻量级线程,由JVM管理,特别适合于I/O密集型任务,:本文主要介绍JDK21对虚拟线程的几种用法,文中通过代码介绍的非常详细,... 目录一、参考官方文档二、什么是虚拟线程三、几种用法1、Thread.ofVirtual().start(

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

springboot依靠security实现digest认证的实践

《springboot依靠security实现digest认证的实践》HTTP摘要认证通过加密参数(如nonce、response)验证身份,避免明文传输,但存在密码存储风险,相比基本认证更安全,却因... 目录概述参数Demopom.XML依赖Digest1Application.JavaMyPasswo

分析 Java Stream 的 peek使用实践与副作用处理方案

《分析JavaStream的peek使用实践与副作用处理方案》StreamAPI的peek操作是中间操作,用于观察元素但不终止流,其副作用风险包括线程安全、顺序混乱及性能问题,合理使用场景有限... 目录一、peek 操作的本质:有状态的中间操作二、副作用的定义与风险场景1. 并行流下的线程安全问题2. 顺

Java 结构化并发Structured Concurrency实践举例

《Java结构化并发StructuredConcurrency实践举例》Java21结构化并发通过作用域和任务句柄统一管理并发生命周期,解决线程泄漏与任务追踪问题,提升代码安全性和可观测性,其核心... 目录一、结构化并发的核心概念与设计目标二、结构化并发的核心组件(一)作用域(Scopes)(二)任务句柄

Java中的Schema校验技术与实践示例详解

《Java中的Schema校验技术与实践示例详解》本主题详细介绍了在Java环境下进行XMLSchema和JSONSchema校验的方法,包括使用JAXP、JAXB以及专门的JSON校验库等技术,本文... 目录1. XML和jsON的Schema校验概念1.1 XML和JSON校验的必要性1.2 Sche