AlignBench：量身打造的中文大语言模型对齐评测

2023-12-26 22:36

文章标签 语言打造模型中文评测对齐量身 alignbench

本文主要是介绍AlignBench：量身打造的中文大语言模型对齐评测，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

对齐（Alignment），是指大语言模型（LLM）与人类意图的一致性。换言之，就是让LLM生成的结果更加符合人类的预期，包括遵循人类的指令，理解人类的意图，进而能产生有帮助的回答等。对齐是决定LLM能否在实际场景中得到真正应用的关键因素。因此，评估模型的对齐水平显得至关重要 —— 如果没有评估，我们就无法判断模型的优劣。

然而，至今为止，中文评测领域关于对齐的评测仍然是一片空白。当前广泛使用的一些评测数据集，如 MMLU，C-Eval 等，与真实使用场景的差别较大，不能有效评估模型的指令遵循能力。针对对齐水平的英文评测数据集，如 MT-Bench，AlpacaEval等，受限于其语言、数量、评测方式，也并不能有效评估中文大模型的对齐水平。考虑到以上因素，以及实际的需求，智谱清言团队推出了AlignBench。

论文：https://arxiv.org/abs/2311.18743
数据、代码：https://github.com/THUDM/AlignBench
项目网站：LLMBench

AlignBench是一个多维度、综合性的评测基准。目前来看，这是第一个专为中文大模型设计，能够在多维度上细致评测模型和人类意图对齐水平的评测基准。将 AlignBench 在评测数据和评测方法上与其他基准的对比情况总结如下：

为了让开发人员能够更加高效地完成评估，作者也开发了自动评估模型 CritiqueLLM ，它是一个能够达到 GPT-4 95% 评估能力的专用的评测模型。可以在 AlignBench 网站上使用 CritiqueLLM 进行评测。

数据集

AlignBench 从 ChatGLM 真实的使用场景中构建，经过初步构造，敏感性筛查，参考答案生成，难度筛选等步骤，构建了具有真实性、挑战性的评测数据集。AlignBench 构建了综合全面的分类体系，分为 8 个大类。

评测方法

AlignBench 使用评分模型（GPT-4，CritiqueLLM）为每个模型的回答打 1-10 的综合分数，代表其回答质量。AlignBench 构建了多维度、规则校准的模型评测方法，有效提升了模型评分和人类评分的一致性，以及模型评价的质量。

1. 多维度：AlignBench 针对每个种类定制了多个细分的评测维度（如创造性、逻辑性等等）。

2. 规则校准：AlignBench 引入了细致的打分规则，提升和人类的一致程度。

评测表明，所提出的模型评测方法提高了和人类评分的一致性。在生成的分析上，所提出的方法能够显著提高分析的质量。在对分析质量的成对评估中，所提出的方法分别以 12.4% 和 20.40% 的胜负差显著胜出。

评测结果

使用 gpt-4-0613 和 CritiqueLLM 分别作为评分模型对 17 个中文大模型进行了评测，结果分别如下。

结果表明：

1. 中文大模型相比于 gpt-4，在逻辑推理能力上差距较大。
2. 顶尖中文大模型相比于 gpt-4，在中文相关能力（尤其是中文理解类）能取得相近甚至更好的表现。
3. 中文大模型的开源活力充沛，顶尖开源模型对齐表现接近闭源模型，已处于同一梯队。

这篇关于AlignBench：量身打造的中文大语言模型对齐评测的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/541018。 23002807@qq.com

相关文章

SQL Server安装时候没有中文选项的解决方法

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同，并且无论如何都没有中文选项？这个问题也

阅读更多...

C语言进阶(预处理命令详解)

C语言进阶(预处理命令详解)

《C语言进阶(预处理命令详解)》文章讲解了宏定义规范、头文件包含方式及条件编译应用,强调带参宏需加括号避免计算错误,头文件应声明函数原型以便主函数调用,条件编译通过宏定义控制代码编译,适用于测试与模块... 目录1.宏定义1.1不带参宏1.2带参宏2.头文件的包含2.1头文件中的内容2.2工程结构3.条件编

阅读更多...

Go语言并发之通知退出机制的实现

Go语言并发之通知退出机制的实现

《Go语言并发之通知退出机制的实现》本文主要介绍了Go语言并发之通知退出机制的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1、通知退出机制1.1 进程/main函数退出1.2 通过channel退出1.3 通过cont

阅读更多...

Go语言编译环境设置教程

Go语言编译环境设置教程

《Go语言编译环境设置教程》Go语言支持高并发（goroutine）、自动垃圾回收,编译为跨平台二进制文件,云原生兼容且社区活跃,开发便捷,内置测试与vet工具辅助检测错误,依赖模块化管理,提升开发效... 目录Go语言优势下载 Go 配置编译环境配置 GOPROXYIDE 设置（VS Code）一些基本

阅读更多...

Python实现中文文本处理与分析程序的示例详解

Python实现中文文本处理与分析程序的示例详解

《Python实现中文文本处理与分析程序的示例详解》在当今信息爆炸的时代,文本数据的处理与分析成为了数据科学领域的重要课题,本文将使用Python开发一款基于Python的中文文本处理与分析程序,希望... 目录一、程序概述二、主要功能解析2.1 文件操作2.2 基础分析2.3 高级分析2.4 可视化2.5

阅读更多...

升级至三频BE12000! 华硕ROG魔盒Pro路由器首发拆解评测

升级至三频BE12000! 华硕ROG魔盒Pro路由器首发拆解评测

《升级至三频BE12000!华硕ROG魔盒Pro路由器首发拆解评测》华硕前两天推出新一代电竞无线路由器——ROG魔盒Pro（StrixGR7Pro），该产品在无线规格、硬件配置及功能设计上实现全... 作为路由器行业的T1梯队厂商，华硕近期发布了新旗舰华硕ROG魔盒Pro，除了保留DIY属性以外，高达120

阅读更多...

深入理解Go语言中二维切片的使用

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

阅读更多...

Python办公自动化实战之打造智能邮件发送工具

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置：搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

阅读更多...

Go语言中make和new的区别及说明

Go语言中make和new的区别及说明

《Go语言中make和new的区别及说明》：本文主要介绍Go语言中make和new的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1 概述2 new 函数2.1 功能2.2 语法2.3 初始化案例3 make 函数3.1 功能3.2 语法3.3 初始化

阅读更多...

Redis出现中文乱码的问题及解决

Redis出现中文乱码的问题及解决

《Redis出现中文乱码的问题及解决》：本文主要介绍Redis出现中文乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 问题的产生2China编程. 问题的解决redihttp://www.chinasem.cns数据进制问题的解决中文乱码问题解决总结

阅读更多...