[AI]算法小抄-总结大模型微调方式

2024-02-10 22:20

本文主要是介绍[AI]算法小抄-总结大模型微调方式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章主要目的快速厘清不同方法的原理差异和应用场景,

对于理论的细节请参考文末的Reference,

Reference中会筛选较为正确,细节的说明

想要建构属于自己应用或特定垂直领域的大模型,除了类似LangChain, TaskMatrix.AI使用Prompt工程的方式,微调(Fine tunning)是更可控且可以持续迭代的方式,预训练语言模型(PLM) + Finetuning的方式也是目前主流的范式,以下介绍几个主流方案,每个方案针对的场景,所需要的数据,成本都不相同:

Supervised finetuning

Prompt tuning

相比于直接透过子任务的结构去进行finetuning,prompt tuning主要是让数据变成更像是预训练模型更熟悉的模式进行finetuning,前身是In-Context Learning (ICL),比如文本情绪分类任务,传统的finetuning数据和promt-tuning区别如下

[Normal Fintuning]

Input: This movie is great

label: happy

[Prompt Tuning]

Input: This movie is great, feel [Mask]

label: This movie is great, feel happy

可以观察到Prompt-tining的数据更接近自然语言的表述,更接近PLM训练的dmomain。主要的步骤包含:模版建构(Template construction)和标签词映射(Label Word Verbalizer),详细的原理可以参考Prompt-Tuning——深度解读一种新的微调范式

Instruction finetuning

首先由Finetuned Language Models Are Zero-Shot Learners提出,主要是将finetuning的子任务转化成自然语言指令(Instruction)进行微调,具体的子任务并不重要,主要是让PLM能够更了解人类的指令,并做出正确的解答,以下是论文中的示例


Intrsuction fintuning也是GPT3之后的大模型能够很好响应人类指令的原因,LangChain, LlmaIndex乃至于GPT-Plugin等工具能够实用也主要是因为个微调方法

Reinforcement learning human fine tuning (RLHF)

RLHF跟之前两个提到方法的区别主要在于其主要的学习目标是人类真实的偏好,也是CahtGPT的回答能够更好满足人类需求的关键所在,训练框架也跟之前较为不同,引入强化学习的训练方式,收先提出这个方案的是Fine-Tuning Language Models from Human Preferences

训练的方式是让policy network(GLM)提出几种可能的答案,并混入人工撰写的答案,然后训练reward model了解人类打分的偏好,进而引导Plocy network输出更符合人类偏好的结果,但是可以看得出来,数据制作的成本远高于上述的两个方法,需要涉及人类排序以及人工撰写的过程

总结

以下根据适合的任务,成本对于上述的方法进行总结

方法适合任务数据成本训练成本
Prompt-tuning自然语言类型子任务,如:文本分类,语义分析...等中,模版设计和映射对于效果影响巨大低,一个子任务只需要少部分数据
Instruction-tuning通用型分发任务,比如:API调度,AutoGPT等低,半自动化生成,参考Alpaca低,一个子任务只需要少部分数据
RLHF强用户体验相关,比如:人格化,聊天...等高,需要人工打分以及人工撰写高,数据跟训练效果未知

Reference 

Instruction Tuning(FLAN、instructGPT、chatGPT)

打开模型Zero-Shot新范式:Instruction Tuning

这篇关于[AI]算法小抄-总结大模型微调方式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/698170

相关文章

gitlab安装及邮箱配置和常用使用方式

《gitlab安装及邮箱配置和常用使用方式》:本文主要介绍gitlab安装及邮箱配置和常用使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装GitLab2.配置GitLab邮件服务3.GitLab的账号注册邮箱验证及其分组4.gitlab分支和标签的

C++中零拷贝的多种实现方式

《C++中零拷贝的多种实现方式》本文主要介绍了C++中零拷贝的实现示例,旨在在减少数据在内存中的不必要复制,从而提高程序性能、降低内存使用并减少CPU消耗,零拷贝技术通过多种方式实现,下面就来了解一下... 目录一、C++中零拷贝技术的核心概念二、std::string_view 简介三、std::stri

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

python判断文件是否存在常用的几种方式

《python判断文件是否存在常用的几种方式》在Python中我们在读写文件之前,首先要做的事情就是判断文件是否存在,否则很容易发生错误的情况,:本文主要介绍python判断文件是否存在常用的几种... 目录1. 使用 os.path.exists()2. 使用 os.path.isfile()3. 使用

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

Mybatis的分页实现方式

《Mybatis的分页实现方式》MyBatis的分页实现方式主要有以下几种,每种方式适用于不同的场景,且在性能、灵活性和代码侵入性上有所差异,对Mybatis的分页实现方式感兴趣的朋友一起看看吧... 目录​1. 原生 SQL 分页(物理分页)​​2. RowBounds 分页(逻辑分页)​​3. Page

Linux链表操作方式

《Linux链表操作方式》:本文主要介绍Linux链表操作方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、链表基础概念与内核链表优势二、内核链表结构与宏解析三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势六、典型应用场景七、调试技巧与

Linux实现线程同步的多种方式汇总

《Linux实现线程同步的多种方式汇总》本文详细介绍了Linux下线程同步的多种方法,包括互斥锁、自旋锁、信号量以及它们的使用示例,通过这些同步机制,可以解决线程安全问题,防止资源竞争导致的错误,示例... 目录什么是线程同步?一、互斥锁(单人洗手间规则)适用场景:特点:二、条件变量(咖啡厅取餐系统)工作流

RedisTemplate默认序列化方式显示中文乱码的解决

《RedisTemplate默认序列化方式显示中文乱码的解决》本文主要介绍了SpringDataRedis默认使用JdkSerializationRedisSerializer导致数据乱码,文中通过示... 目录1. 问题原因2. 解决方案3. 配置类示例4. 配置说明5. 使用示例6. 验证存储结果7.

Nginx Location映射规则总结归纳与最佳实践

《NginxLocation映射规则总结归纳与最佳实践》Nginx的location指令是配置请求路由的核心机制,其匹配规则直接影响请求的处理流程,下面给大家介绍NginxLocation映射规则... 目录一、Location匹配规则与优先级1. 匹配模式2. 优先级顺序3. 匹配示例二、Proxy_pa