玄学调参实践篇 | 深度学习模型 + 预训练模型 + 大模型LLM

2023-11-30 05:12

本文主要是介绍玄学调参实践篇 | 深度学习模型 + 预训练模型 + 大模型LLM,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

😍 这篇主要简单记录一些调参实践,无聊时会不定期更新~

在这里插入图片描述

文章目录

  • 0、学习率与batch_size判断
  • 1、Epoch数判断
  • 2、判断模型架构是否有问题
  • 3、大模型 - 计算量、模型、和数据大小的关系
  • 4、大模型调参相关论文经验总结
  • 5、训练时模型的保存

0、学习率与batch_size判断

  • batch_size: 这不用多说,一般按2的指数设置如:2、4、8、16…。设多大基本看你的显卡显存能不能hold得住咯。
  • 学习率: 常用的一些自适应学习率调整策略如:linear_with_warmup、cosine_with_warmup。现在像一些大模型如ChatGLM、LLaMA等的训练里基本都用的cosine。学习率基本就是:3e-5, 4e-5, 5e-5…这样调。
  • 学习率与batch_size的关系: 一般来说,batch_size的大小一般与学习率的大小成正比。batch_size越大一般意味着算法收敛方向的置信度越大,也可以选择较大的学习率来加快收敛速度。而小的batch_size规律性较差,需要小的学习率保证不出错。在显存允许的情况下,选择大的batch-size。

1、Epoch数判断

  • 1、观察训练集和验证集的损失函数(loss)和准确率(accuracy)的变化曲线,如果训练集的指标持续下降或上升,而验证集的指标开始出现反向变化或者停滞不动,那么可能就是过拟合或者欠拟合的现象,需要及时停止训练或者调整参数。【😄提一小点:有时候玄学在于过拟合不一定会导致模型效果变差, 有时反而相反。可以参考instructgpt论文,或者自己在数学、代码等任务试验一下,往往过拟合效果是更好的】
  • 2、使用预训练模型(pre-trained model),比如BERT,GPT等,在大规模的数据集上进行了长时间的训练,已经学习到了很多通用的特征和知识,所以在微调的时候只需要少量的epoch就可以达到很好的效果。
  • 3、Early Stopping,即在每个epoch结束后,用验证集评估模型的性能,如果性能没有提升或者下降了一定次数,就停止训练,并保存最佳的模型。

⭐似乎在一些预训练大模型上开始微调,基本就是wamup用5个左右的epoch;cosine schedule用10个左右的epoch尝试。咱也不知对不对,我以往是这样搞的。自己可以变大变小试试。

2、判断模型架构是否有问题

⭐ 我觉得可以用部分数据,训多几个epoch,看看模型会不会过拟合,如果会,那模型大概没啥问题。

3、大模型 - 计算量、模型、和数据大小的关系

在大模型的研发中,通常会有下面一些需求:

  • 计划训练一个10B的模型,想知道至少需要多大的数据?
  • 收集到了1T的数据,想知道能训练一个多大的模型?
  • 老板准备1个月后开发布会,给的资源是100张A100,应该用多少数据训多大的模型效果最好?
  • 老板对现在10B的模型不满意,想知道扩大到100B模型的效果能提升到多少?

以上这些问题都可以基于Scaling Law的理论进行回答。本文是阅读了一系列 Scaling Law的文章后的整理和思考,包括Scaling Law的概念和推导以及反Scaling Law的场景。
⭐ 解析大模型中的Scaling Law: https://zhuanlan.zhihu.com/p/667489780

4、大模型调参相关论文经验总结

下面是知乎清华老哥的总结:

  • 最近在做一些大模型微调的工作。开始的时候比较头疼怎么调超参数,毕竟不能像小模型那样疯狂跑实验,看结果积累经验了,一是计算量太大,二是大模型比较不好评估(毕竟让模型做选择题不能准确的评估性能,一些垂类领域也很难搞到相关测试集,大部分在微调的工程师都是在调垂类模型吧:)。
  • 其次,如果用GPT4评估又涉及到数据隐私问题,同时下边列举的一篇文章显示,GPT4更倾向于给句子长的、回答更多样性的答案更高的分数,有时候也是不准的。。。)。最后也只能多看看微调/训练相关的论文借鉴借鉴经验了。下边会列出一些最近看的文章,给出重要结论以及我的一些个人观点,如果有感兴趣就去精读一下,希望能帮助到一些微调er,本文章不定期更新。。。
  • ⭐ 文章链接:https://www.zhihu.com/question/607397171

5、训练时模型的保存

  • 一般来说我们会搞个验证集,设置一个评估指标,训练到多少个step或是1个epoch时,测一遍验证集,每次保存在验证集上最优指标对应的模型。
  • 现在的一些大模型训练,基本在训练时不搞验证集,而是看train loss来保存最优模型。最常见的是每隔多少个step,保存一次模型checkpoint。最后训练结束后,再根据loss或是各个checkpoint在验证集的表现来挑个最优模型。

这篇关于玄学调参实践篇 | 深度学习模型 + 预训练模型 + 大模型LLM的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/435749

相关文章

Android Paging 分页加载库使用实践

《AndroidPaging分页加载库使用实践》AndroidPaging库是Jetpack组件的一部分,它提供了一套完整的解决方案来处理大型数据集的分页加载,本文将深入探讨Paging库... 目录前言一、Paging 库概述二、Paging 3 核心组件1. PagingSource2. Pager3.

深度解析Nginx日志分析与499状态码问题解决

《深度解析Nginx日志分析与499状态码问题解决》在Web服务器运维和性能优化过程中,Nginx日志是排查问题的重要依据,本文将围绕Nginx日志分析、499状态码的成因、排查方法及解决方案展开讨论... 目录前言1. Nginx日志基础1.1 Nginx日志存放位置1.2 Nginx日志格式2. 499

在Java中使用OpenCV实践

《在Java中使用OpenCV实践》用户分享了在Java项目中集成OpenCV4.10.0的实践经验,涵盖库简介、Windows安装、依赖配置及灰度图测试,强调其在图像处理领域的多功能性,并计划后续探... 目录前言一 、OpenCV1.简介2.下载与安装3.目录说明二、在Java项目中使用三 、测试1.测

MyBatis-Plus 自动赋值实体字段最佳实践指南

《MyBatis-Plus自动赋值实体字段最佳实践指南》MyBatis-Plus通过@TableField注解与填充策略,实现时间戳、用户信息、逻辑删除等字段的自动填充,减少手动赋值,提升开发效率与... 目录1. MyBATis-Plus 自动赋值概述1.1 适用场景1.2 自动填充的原理1.3 填充策略

Olingo分析和实践之EDM 辅助序列化器详解(最佳实践)

《Olingo分析和实践之EDM辅助序列化器详解(最佳实践)》EDM辅助序列化器是ApacheOlingoOData框架中无需完整EDM模型的智能序列化工具,通过运行时类型推断实现灵活数据转换,适用... 目录概念与定义什么是 EDM 辅助序列化器?核心概念设计目标核心特点1. EDM 信息可选2. 智能类

Olingo分析和实践之OData框架核心组件初始化(关键步骤)

《Olingo分析和实践之OData框架核心组件初始化(关键步骤)》ODataSpringBootService通过初始化OData实例和服务元数据,构建框架核心能力与数据模型结构,实现序列化、URI... 目录概述第一步:OData实例创建1.1 OData.newInstance() 详细分析1.1.1

Olingo分析和实践之ODataImpl详细分析(重要方法详解)

《Olingo分析和实践之ODataImpl详细分析(重要方法详解)》ODataImpl.java是ApacheOlingoOData框架的核心工厂类,负责创建序列化器、反序列化器和处理器等组件,... 目录概述主要职责类结构与继承关系核心功能分析1. 序列化器管理2. 反序列化器管理3. 处理器管理重要方

虚拟机Centos7安装MySQL数据库实践

《虚拟机Centos7安装MySQL数据库实践》用户分享在虚拟机安装MySQL的全过程及常见问题解决方案,包括处理GPG密钥、修改密码策略、配置远程访问权限及防火墙设置,最终通过关闭防火墙和停止Net... 目录安装mysql数据库下载wget命令下载MySQL安装包安装MySQL安装MySQL服务安装完成

SpringBoot整合(ES)ElasticSearch7.8实践

《SpringBoot整合(ES)ElasticSearch7.8实践》本文详细介绍了SpringBoot整合ElasticSearch7.8的教程,涵盖依赖添加、客户端初始化、索引创建与获取、批量插... 目录SpringBoot整合ElasticSearch7.8添加依赖初始化创建SpringBoot项

Zabbix在MySQL性能监控方面的运用及最佳实践记录

《Zabbix在MySQL性能监控方面的运用及最佳实践记录》Zabbix通过自定义脚本和内置模板监控MySQL核心指标(连接、查询、资源、复制),支持自动发现多实例及告警通知,结合可视化仪表盘,可有效... 目录一、核心监控指标及配置1. 关键监控指标示例2. 配置方法二、自动发现与多实例管理1. 实践步骤