飞桨对话模型工具箱(二):对话自动评估模块ADE

2024-02-11 17:50

本文主要是介绍飞桨对话模型工具箱(二):对话自动评估模块ADE,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

导读:人机对话是人工智能的重要挑战,近年来获得了学术界和工业界的广泛关注。为了帮助广大开发者们更快捷地实现对话系统的开发,飞桨在自然语言处理模型库(PaddleNLP)中开源了对话模型工具库,内置了对话通用理解模型(DGU)和对话自动评估模块(ADE)。 在上一篇文章中,我们已经为大家介绍了对话通用理解模型(DGU)。在本篇文章中,将为大家介绍对话自动评估模块(ADE)。

 

1.  对话自动评估

 

随着对话系统的不断发展和成熟,如何评价对话系统的回复质量,成为了一个新的研究方向。

 

对话自动评估技术,能够帮助企业或个人快速评估对话系统的回复质量,减少人工评估成本,具有重要的商业意义。

 

例如,在客服领域,对话自动评估技术可以应用于客服服务质量的评估,判断是否存在答非所问等情况,能够帮助电商管理者进一步了解客服人员的服务水平,从而辅助制定管理决策。

 

在人机对话领域,对话自动评估技术也可以用于评估机器人的回复质量,作为对话系统优劣的一个辅助判断标准,成为对话系统改进的参考指标。

 

2.  飞桨ADE模块介绍


2.1.   模型介绍

飞桨对话自动评估模块(ADE),主要用于评估开放领域对话系统的回复质量。

 

它的输入是文本对(上文,回复),输出是回复质量得分。

 

考虑到匹配任务(预测上下文是否匹配)与自动评估任务之间的天然联系,飞桨ADE模块利用了匹配任务作为自动评估任务的预训练,然后再利用少量标注数据进行模型微调。

 

因此,飞桨ADE模块可以在无标注数据或少量标注数据的情况下使用:

  1. 在无标注数据的情况下,利用负采样训练匹配模型作为评估工具,实现对多个对话系统回复质量排序。

  2. 利用少量标注数据(特定对话系统或场景的人工打分),在匹配模型基础上进行微调,可以显著提高该对话系统或场景的评估效果。

 

飞桨ADE模块内提供了两个模型:

  1. 匹配模型:context和response作为输入,使用lstm学习两个句子的表示,在计算两个线性张量的积作为logits,然后使用sigmoid_cross_entropy_with_logits作为loss, 最终用来评估相似程度。

  2. finetuing模型:在匹配模型的基础上,将sigmoid_cross_entropy_with_logits loss优化成平方损失loss,进行训练。

 

2.2.   效果评测

我们以四个不同的对话系统(seq2seq_naive/seq2seq_att/keywords/human)为例,使用对话自动评估工具进行自动评估。

1、无标注数据情况下,直接使用预训练好的评估工具进行评估; 在四个对话系统上,自动评估打分和人工评估打分spearman相关系数,如下:

对四个系统平均得分排序:

2、利用少量标注数据微调后,自动评估打分和人工打分spearman相关系数,如下:


3.  飞桨ADE上手指南

下面将送上代码,手把手地教您如何使用飞桨对话自动评估模块(ADE)。

 

3.1.   安装说明

环境依赖:

  • Python >= 2.7

  • cuda >= 9.0

  • cudnn >= 7.0

  • pandas >= 0.20.1

  • PaddlePaddle >= 1.6.0

克隆项目:

git clone https://github.com/PaddlePaddle/models.git
cd models/PaddleNLP/dialogue_model_toolkit/auto_dialogue_evaluation

 

3.2.   任务简介

本模块内模型训练主要包括两个阶段:

1)第一阶段:训练一个匹配模型作为评估工具,可用于待评估对话系统内的回复内容进行排序;(matching任务)

模型结构: 输入为context和response,对两个输入学习embedding表示, 学习到的表示经过lstm学习高阶表示, context和response的高阶表示计算双线性张量积logits, logits和label计算sigmoid_cross_entropy_with_logits loss;

2)第二阶段:利用少量的对话系统的标记数据,对第一阶段训练的匹配模型进行finetuning,可以提高评估效果(包含human,keywords,seq2seq_att,seq2seq_naive,4个finetuning任务);

模型结构: finetuning阶段学习表示到计算logits部分和第一阶段模型结构相同,区别在于finetuning阶段计算square_error_cost loss;

用于第二阶段fine-tuning的对话系统包括下面四部分:

  • human: 人工模拟的对话系统;

  • keywords:seq2seq keywords对话系统;

  • seq2seq_att:seq2seq attention model 对话系统;

  • seq2seq_naive:naive seq2seq model对话系统;

 

3.3.   数据准备

数据集、相关模型下载:

cd ade && bash prepare_data_and_model.sh

数据路径:data/input/data/

模型路径:data/saved_models/trained_models/


3.4.   模型配置

配置文件路径: data/config/ade.yaml


3.5.   单机训练

1、第一阶段matching模型的训练:

方式一: 推荐直接使用模块内脚本训练

bash run.sh matching train

方式二: 执行训练相关的代码:

export FLAGS_sync_nccl_allreduce=0
export FLAGS_eager_delete_tensor_gb=1  #开启显存优化export CUDA_VISIBLE_DEVICES=0  #GPU单卡训练
#export CUDA_VISIBLE_DEVICES=0,1,2,3  #GPU多卡训练#export CUDA_VISIBLE_DEVICES=  #CPU训练
#export CPU_NUM=1 #CPU训练时指定CPU numberif  [ !"$CUDA_VISIBLE_DEVICES" ]
thenuse_cuda=false
elseuse_cuda=true
fipretrain_model_path="data/saved_models/matching_pretrained"if [ -f ${pretrain_model_path} ]
thenrm${pretrain_model_path}
fiif [ ! -d ${pretrain_model_path} ]
thenmkdir${pretrain_model_path}
fi

2、第二阶段finetuning模型的训练:

方式一: 推荐直接使用模块内脚本训练

bash run.sh task_name task_type

task_name和task_type为具体的任务参数,可以在文末Github查看详细内容。

方式二: 执行训练相关的代码:

export FLAGS_sync_nccl_allreduce=0
export FLAGS_eager_delete_tensor_gb=1  #开启显存优化export CUDA_VISIBLE_DEVICES=0  #GPU单卡训练
#export CUDA_VISIBLE_DEVICES=0,1,2,3  #GPU多卡训练#export CUDA_VISIBLE_DEVICES=  #CPU训练
#export CPU_NUM=1 #CPU训练时指定CPU numberif  [ !"$CUDA_VISIBLE_DEVICES" ]
thenuse_cuda=false
elseuse_cuda=true
fisave_model_path="data/saved_models/human_finetuned"if [ -f ${save_model_path} ]
thenrm${save_model_path}
fiif [ ! -d ${save_model_path} ]
thenmkdir${save_model_path}
fi

3.6.   模型预测

1、第一阶段matching模型的预测:

方式一: 推荐直接使用模块内脚本预测

bash run.sh matching predict

方式二: 执行预测相关的代码:

export FLAGS_sync_nccl_allreduce=0
export FLAGS_eager_delete_tensor_gb=1  #开启显存优化export CUDA_VISIBLE_DEVICES=0  #单卡预测
#export CUDA_VISIBLE_DEVICES=  #CPU预测
#export CPU_NUM=1 #CPU训练时指定CPU numberif  [ !"$CUDA_VISIBLE_DEVICES" ]
thenuse_cuda=false
elseuse_cuda=true
fi

 

2、第二阶段finetuning模型的预测:

方式一: 推荐直接使用模块内脚本预测

bash run.sh task_name task_type

task_name和task_type为具体的任务参数,可以在文末Github查看详细内容。

方式二: 执行预测相关的代码:

export FLAGS_sync_nccl_allreduce=0
export FLAGS_eager_delete_tensor_gb=1  #开启显存优化export CUDA_VISIBLE_DEVICES=0  #单卡预测
#export CUDA_VISIBLE_DEVICES=  #CPU预测
#export CPU_NUM=1 #CPU训练时指定CPU numberif  [ !"$CUDA_VISIBLE_DEVICES" ]
thenuse_cuda=false
elseuse_cuda=true
fi

3.7.   模型评估

模块中5个任务,各任务支持计算的评估指标内容如下:

第一阶段:

matching: 使用R1@2, R1@10, R2@10, R5@10四个指标进行评估排序模型的效果;

 

第二阶段:

  • human: 使用spearman相关系数来衡量评估模型对系统的打分与实际对话系统打分之间的关系;

  • keywords:使用spearman相关系数来衡量评估模型对系统的打分与实际对话系统打分之间的关系;

  • seq2seq_att:使用spearman相关系数来衡量评估模型对系统的打分与实际对话系统打分之间的关系;

  • seq2seq_naive:使用spearman相关系数来衡量评估模型对系统的打分与实际对话系统打分之间的关系;

1、第一阶段matching模型的评估:

方式一: 推荐直接使用模块内脚本评估

bash run.sh matching evaluate

方式二: 执行评估相关的代码:

export CUDA_VISIBLE_DEVICES=  #指默认CPU评估
export CPU_NUM=1 #CPU训练时指定CPU numberpython -u main.py \--do_eval=true \--use_cuda=false \--evaluation_file="data/input/data/unlabel_data/test.ids" \--output_prediction_file="data/output/pretrain_matching_predict"\--loss_type="CLS"

 

2、第二阶段finetuning模型的评估:

方式一: 推荐直接使用模块内脚本评估

bash run.sh task_name task_type

task_name和task_type为具体的任务参数,可以在文末Github查看详细内容。

方式二: 执行评估相关的代码:

export CUDA_VISIBLE_DEVICES=  #指默认CPU评估
export CPU_NUM=1 #CPU训练时指定CPU numberpython -u main.py \--do_eval=true \--use_cuda=false \--evaluation_file="data/input/data/label_data/human/test.ids"\--output_prediction_file="data/output/finetuning_human_predict"\--loss_type="L2"

3.8.   模型推断

1、第一阶段matching模型的推断:

方式一: 推荐直接使用模块内脚本保存inferencemodel

bash run.sh matching inference

方式二: 执行inferencemodel相关的代码:

export CUDA_VISIBLE_DEVICES=0  # 指GPU单卡推断
#export CUDA_VISIBLE_DEVICES=  #CPU推断
#export CPU_NUM=1 #CPU训练时指定CPU numberif  [ !"$CUDA_VISIBLE_DEVICES" ]
thenuse_cuda=false
elseuse_cuda=true
fipython -u main.py \--do_save_inference_model=true \--use_cuda=${use_cuda} \--init_from_params="data/saved_models/trained_models/matching_pretrained/params"\--inference_model_dir="data/inference_models/matching_inference_model"

2、第二阶段finetuning模型的推断:

方式一: 推荐直接使用模块内脚本保存inferencemodel

bash run.sh task_name task_type

task_name和task_type为具体的任务参数,可以在文末Github查看详细内容。

方式二: 执行inferencemodel相关的代码:

export CUDA_VISIBLE_DEVICES=0  # 指GPU单卡推断
#export CUDA_VISIBLE_DEVICES=  #CPU推断
#export CPU_NUM=1 #CPU训练时指定CPU numberif  [ !"$CUDA_VISIBLE_DEVICES" ]
thenuse_cuda=false
elseuse_cuda=true
fipython -u main.py \--do_save_inference_model=true \--use_cuda=${use_cuda} \--init_from_params="data/saved_models/trained_models/human_finetuned/params"\--inference_model_dir="data/inference_models/human_inference_model"

3.9.   服务部署

模块内提供已训练好的5个inference_model模型,您可直接下载使用。

 

今天关于飞桨对话自动评估模块(ADE)的介绍到这里就结束了,赶快动手尝试一下吧!

想与更多的深度学习开发者交流,请加入飞桨官方QQ群:796771754。

如果您想详细了解更多飞桨PaddlePaddle的相关内容,请参阅以下文档。

官网地址:

https://www.paddlepaddle.org.cn/

项目地址:

https://github.com/PaddlePaddle/models/tree/release/1.6/PaddleNLP/PaddleDialogue

这篇关于飞桨对话模型工具箱(二):对话自动评估模块ADE的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/700447

相关文章

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

浏览器插件cursor实现自动注册、续杯的详细过程

《浏览器插件cursor实现自动注册、续杯的详细过程》Cursor简易注册助手脚本通过自动化邮箱填写和验证码获取流程,大大简化了Cursor的注册过程,它不仅提高了注册效率,还通过友好的用户界面和详细... 目录前言功能概述使用方法安装脚本使用流程邮箱输入页面验证码页面实战演示技术实现核心功能实现1. 随机

HTML5实现的移动端购物车自动结算功能示例代码

《HTML5实现的移动端购物车自动结算功能示例代码》本文介绍HTML5实现移动端购物车自动结算,通过WebStorage、事件监听、DOM操作等技术,确保实时更新与数据同步,优化性能及无障碍性,提升用... 目录1. 移动端购物车自动结算概述2. 数据存储与状态保存机制2.1 浏览器端的数据存储方式2.1.

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

Python使用smtplib库开发一个邮件自动发送工具

《Python使用smtplib库开发一个邮件自动发送工具》在现代软件开发中,自动化邮件发送是一个非常实用的功能,无论是系统通知、营销邮件、还是日常工作报告,Python的smtplib库都能帮助我们... 目录代码实现与知识点解析1. 导入必要的库2. 配置邮件服务器参数3. 创建邮件发送类4. 实现邮件

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

Python使用pynput模拟实现键盘自动输入工具

《Python使用pynput模拟实现键盘自动输入工具》在日常办公和软件开发中,我们经常需要处理大量重复的文本输入工作,所以本文就来和大家介绍一款使用Python的PyQt5库结合pynput键盘控制... 目录概述:当自动化遇上可视化功能全景图核心功能矩阵技术栈深度效果展示使用教程四步操作指南核心代码解析