railf专题

【LLM】大模型之RLHF和替代方法（DPO、RAILF、ReST等）

note SFT使用交叉熵损失函数，目标是调整参数使模型输出与标准答案一致，不能从整体把控output质量，RLHF（分为奖励模型训练、近端策略优化两个步骤）则是将output作为一个整体考虑，优化目标是使模型生成高质量回复。启发1：像可以用6b、66b依次得到差一点、好一点的target构造排序数据集，进行DPO直接偏好学习或者其他RLHF替代方法（RAILF、ReST等），比直接RLHF更

RLHF的替代算法之DPO原理解析：从Zephyr的DPO到Claude的RAILF

前言本文的成就是一个点顺着一个点而来的，成文过程颇有意思首先，如上文所说，我司正在做三大LLM项目，其中一个是论文审稿GPT第二版，在模型选型的时候，关注到了Mistral 7B(其背后的公司Mistral AI号称欧洲的OpenAI，当然你权且一听，切勿过于当真)而由Mistral 7B顺带关注到了基于其微调的Zephyr 7B，而一了解Zephyr 7B的论文，发现它还挺有意思的，即