使用RLHF推动翻译偏好建模:低成本实现“信达雅”

2024-06-17 18:20

本文主要是介绍使用RLHF推动翻译偏好建模:低成本实现“信达雅”,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在机器翻译领域,“忠实度(信)”、“表现力(达)”、“优雅性(雅)”一直是研究者们不懈追求的目标。然而,传统的评估指标如BLEU并不能完全符合人类对翻译质量的偏好。为了解决这一挑战,复旦大学自然语言处理实验室与复旦大学外文学院携手合作,共同探索了利用基于人类反馈的强化学习(RLHF)来提升翻译质量的可能途径。

我们提出一种代价高效的偏好学习策略,只需少量专业翻译即可让模型对齐人类的“信、达、雅”翻译偏好。这一策略通过区分人类高质量翻译和普通机器翻译来优化奖励模型,以对比的方式使其捕捉到机器翻译相对于人类翻译的不足之处,并在后续的强化学习中引导机器翻译的进一步改进。

实验结果表明,通过这一方法实现的RLHF可以有效提升翻译质量,并且这种改进也可对未经RLHF训练的语言产生积极影响。

图片

图片

主体介绍

  RLHF已被证明有效地使模型行为与人类社会价值观保持一致,该技术的一个重要环节是奖励建模——人类标注者根据其偏好对模型的不同响应进行排名,然后通过强化学习阶段调整模型行为。然而,标注大量高质量偏好数据并非易事,除去固有的噪声和不一致性问题,针对翻译任务的偏好数据标注还对标注者的语言能力提出了极高的要求。

本文探讨通过RLHF提升翻译质量,提出一种针对翻译任务的低成本的偏好学习策略:无需从头标注代价高昂的偏好数据集,而是直接利用“高质量人类翻译优于机器生成翻译”的归纳偏置。奖励模型通过比较两者质量差异来学习人类翻译偏好,进而指导机器翻译质量的改善。

我们通过对齐多语言版本的书籍来获得这类高质量人类翻译数据。选择书籍作为数据源的原因:

原始文本由专业作者撰写,目标语言由专业翻译家翻译,确保文本质量;

与网页文本相比,书籍文本通常包含更复杂的语言结构,对学习翻译偏好尤为有益。

对齐书籍文本不需要具备过高的语言能力,可借助外部工具辅助完成。

训练流程

图片

图片

模型的训练流程分为以下三个步骤:

1)在平行语料上对预训练模型进行监督微调,得到具有基本翻译能力的模型πsft;

2)在偏好数据集Drm上训练奖励模型,对符合人类偏好的翻译给予高奖励分数。具体来说,将高质量人类翻译作为偏好数据,而步骤1)得到的SFT模型的翻译结果作为非偏好数据,通过对比其间的差异来优化奖励模型:

图片

图片

其中x表示源语言句子,yw和yl分别代表高质量人类翻译和SFT模型的机器生成翻译。

3)利用训练好的奖励模型作为人类偏好的代理,使用近端策略优化算法(PPO)进行强化学习得到模型πrl,提高翻译质量。

实验结果

翻译质量提升

图片

图片

以WMT23和FLORES测试集评估效果,我们的方法在GPT-4评估和人类评估两种评价标准下,相较于原始SFT模型,在中→英、英→中两个方向的翻译任务上都表现出显著更高的获胜率。这说明即使没有明确的偏好标注,我们的方法利用少量高质量的专业翻译,也能够对齐人类翻译偏好,并提高模型的翻译质量。

以下三个案例展示了通过偏好优化后翻译质量的提升(RLHF代表我们的方法):

图片

图片

跨语言偏好转移

  我们还通过实验研究了是否可以将学习到的翻译偏好从一种语言转移到另一种语言。

图片

图片

结果表明,仅使用英中翻译任务进行RLHF训练后,学习到的人类偏好可以有效地转移到其他语言,显著提升了实验中所有方向翻译任务的性能。同样地,当英阿翻译作为源任务时,在英法和英俄翻译任务中也能观察到类似的提升。这表明,在当前翻译方向缺乏具有强大语言能力或高质量偏好数据的奖励模型时,在其他语言上与人类偏好对齐并将其能力转移到该翻译方向是一种可以尝试的策略。

关键因素

我们详细探讨了所提出方法可行的关键条件。进一步的分析表明,模型的语言能力在偏好学习中起着至关重要的作用。具有强大语言能力的奖励模型可以更敏感地学习到翻译质量的微妙差异,并更好地与真实人类翻译偏好保持一致;偏好数据本身的质量差异更显著,也会使得奖励模型更容易学习到具有普遍性的翻译偏好。

这篇关于使用RLHF推动翻译偏好建模:低成本实现“信达雅”的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1070204

相关文章

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

Android Paging 分页加载库使用实践

《AndroidPaging分页加载库使用实践》AndroidPaging库是Jetpack组件的一部分,它提供了一套完整的解决方案来处理大型数据集的分页加载,本文将深入探讨Paging库... 目录前言一、Paging 库概述二、Paging 3 核心组件1. PagingSource2. Pager3.

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

C++11右值引用与Lambda表达式的使用

《C++11右值引用与Lambda表达式的使用》C++11引入右值引用,实现移动语义提升性能,支持资源转移与完美转发;同时引入Lambda表达式,简化匿名函数定义,通过捕获列表和参数列表灵活处理变量... 目录C++11新特性右值引用和移动语义左值 / 右值常见的左值和右值移动语义移动构造函数移动复制运算符

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、