Dialogue Transformers:如何解决医学大模型【偏离主诉和没抓住核心】,建立抗干扰的能力,使得发现用户问题会一追到底?

本文主要是介绍Dialogue Transformers:如何解决医学大模型【偏离主诉和没抓住核心】,建立抗干扰的能力,使得发现用户问题会一追到底?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Dialogue Transformers:实现抗干扰能力的对话模型

    • 抗干扰能力
    • 基于 Transformer 的实现技术
    • 优化目标

 


抗干扰能力

前置知识:从【注意力机制】开始,到【Transformer】的零基础【大模型】系列

Dialogue Transformers 论文地址:https://arxiv.org/pdf/1910.00486.pdf

医学大模型的一个问题:偏离主诉和没抓住核心,顶级医生发现用户问题会一追到底,而不是跟随用户关注无关内容,单纯理解对几句话是毫无意义。

论文中的一段话:

  • BOT:您的总额是15.50美元——我要从您上次用的那张卡上扣钱吗?
  • 用户:我收到退款后,我的账户上还有存款吗?
  • BOT:是的,您的账户有10美元。
  • 用户:好的,很好。
  • BOT:我可以下订单吗?(普通的对话系统,ta不会要催用户下单,这个跟人一样)
  • 用户:是的。
  • 机器人:完成。你明天应该能拿到你的东西。

第一行系统的回复是:“您的总额是15.50美元——我要从您上次用的那张卡上扣钱吗?”。

而用户在第二行提出的问题是:“我收到退款后,我的账户上还有存款吗?”这两句话之间的相关性并不明显。

系统给出了【我可以下订单吗?】,而这个回复同第一行内容高度相关,重新回到了之前的对话上下文里的核心问题。

基于 Transformer 的实现技术

论文证明了,Transformer架构比 循环神经网络RNN 模型,更适合于多轮对话的抗干扰能力。

3 种技术实现方案:

  1. 对话栈:将对话视为一个堆栈,按照后进先出的方式进行操作。然而,这种技术的缺点是一旦子对话完成并从栈中移除,就无法回到原来的子对话。因此,无法灵活地处理干扰和回到之前的对话上下文。

  2. RNN网络:核心思想是当前状态包含过去的信息。然而,在实际业务对话中,很难获得足够的训练数据来满足RNN的训练需求,导致训练结果不确定性较高。此外,RNN默认使用整个输入进行编码,如果前面的输出有偏差,会导致后续训练结果偏离目标。

  3. Transformers:Transformer相比于前两种技术,在处理意外输入内容时具有更强的抗干扰性。Transformer利用自注意力机制预先选择哪些tokens对当前状态有影响,忽略对当前状态无意义的其他tokens。ta能够独立地进行每一步的预测,并在发现无关输入时保持对话的连贯性。相比之下,使用RNN的REDP机制复制对话历史信息来回到正轨,但相对于Transformer,REDP的网络结构更复杂且泛化能力较差。

对于开放领域的对话,Transformer可以将对话上下文和领域背景知识合并,用于处理开放领域的对话任务。

可以使用 retrieve 模式或通用模式来实现,retrieve 模式使用两层 Transformer 进行相似度对比和回复编码,通用模式则将 Transformer 用作解码器逐个生成回复的 token。

总之,相对于 对话栈 和 RNN 网络,Transformer 在处理对话中的干扰和回到原对话上下文方面,具有更好的性能和灵活性。

优化目标

在Transformer的对话机制中,会将对话状态和每个系统行为进行编码,并在训练时最大化ta们之间的相似度。

  • 对当前用户输入的信息 User Intent Entities、系统 BOT 给予的信息、历史信息 Previous System Action 进行编码,形成一个嵌入层 embedding layer。
  • 再将 嵌入层里的隐藏状态 与每个系统行为 System Action 生成的向量,形成另一个嵌入层,进行相似度比较,以选择相似度 Similarity 排名最高的系统行为。

在这个过程中,采用了单向注意力机制,目的是让 Transformer 无法看到接下来的内容,需要将其遮住。

在端到端的 TED(Transformer Encoder Decoder)策略中,仍然采用 retrieve 模式,不会生成新的响应。

  • Retrieve模式是从预定义的候选回复集合中选择最合适的回复。在这种模式下,系统不会生成新的响应,而是从候选回复集合中检索出一个最相关的回复作为系统的回应。

  • 基于检索或排序的方法来选择最合适的回复。计算对话历史和每个候选回复之间的相似度或相关性来实现。常见的方法是使用基于词向量或句向量的相似度计算方法,如余弦相似度或点积相似度。

用户和系统的对话被编码成 “bag-of-words” 的向量。

  • 用户:[我, 想, 预订, 一张, 机票, 去, 纽约]
  • 每个句子被转换成了一个向量,表示句子中出现的单词及其频率。

在每一轮对话中,Transformer 动态地使用自注意力机制来访问对话历史信息的不同部分。

  • 如果认为 “预订” 和 “机票” 这两个单词对于生成回复很重要,那ta会分配更高的注意力权重给这两个单词,从而更关注这部分信息。

Transformer 的对话机制通过编码对话状态和系统行为,并使用自注意力机制来进行相似度比较,以选择最合适的系统行为。

这种方法能够动态地利用对话历史信息,并在训练过程中最大化状态和行为之间的相似度。

损失函数:

把输入向量和系统行为向量,放在同一个网络里进行训练,通过 Loss 进行反向传播。

损失度的计算公式, S+ 代表正样本的损失度,S- 代表负样本的损失度。

  • 正样本表示属于目标类别的样本(订机票、天气,相关的信息)
  • 负样本表示不属于目标类别的样本(有什么好的零食,无关的信息)

这个公式核心就是,最大化正样本,最小化负样本。

这篇关于Dialogue Transformers:如何解决医学大模型【偏离主诉和没抓住核心】,建立抗干扰的能力,使得发现用户问题会一追到底?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/492991

相关文章

SpringBoot 异常处理/自定义格式校验的问题实例详解

《SpringBoot异常处理/自定义格式校验的问题实例详解》文章探讨SpringBoot中自定义注解校验问题,区分参数级与类级约束触发的异常类型,建议通过@RestControllerAdvice... 目录1. 问题简要描述2. 异常触发1) 参数级别约束2) 类级别约束3. 异常处理1) 字段级别约束

java内存泄漏排查过程及解决

《java内存泄漏排查过程及解决》公司某服务内存持续增长,疑似内存泄漏,未触发OOM,排查方法包括检查JVM配置、分析GC执行状态、导出堆内存快照并用IDEAProfiler工具定位大对象及代码... 目录内存泄漏内存问题排查1.查看JVM内存配置2.分析gc是否正常执行3.导出 dump 各种工具分析4.

Olingo分析和实践之OData框架核心组件初始化(关键步骤)

《Olingo分析和实践之OData框架核心组件初始化(关键步骤)》ODataSpringBootService通过初始化OData实例和服务元数据,构建框架核心能力与数据模型结构,实现序列化、URI... 目录概述第一步:OData实例创建1.1 OData.newInstance() 详细分析1.1.1

Python错误AttributeError: 'NoneType' object has no attribute问题的彻底解决方法

《Python错误AttributeError:NoneTypeobjecthasnoattribute问题的彻底解决方法》在Python项目开发和调试过程中,经常会碰到这样一个异常信息... 目录问题背景与概述错误解读:AttributeError: 'NoneType' object has no at

Spring的RedisTemplate的json反序列泛型丢失问题解决

《Spring的RedisTemplate的json反序列泛型丢失问题解决》本文主要介绍了SpringRedisTemplate中使用JSON序列化时泛型信息丢失的问题及其提出三种解决方案,可以根据性... 目录背景解决方案方案一方案二方案三总结背景在使用RedisTemplate操作redis时我们针对

Spring Boot Maven 插件如何构建可执行 JAR 的核心配置

《SpringBootMaven插件如何构建可执行JAR的核心配置》SpringBoot核心Maven插件,用于生成可执行JAR/WAR,内置服务器简化部署,支持热部署、多环境配置及依赖管理... 目录前言一、插件的核心功能与目标1.1 插件的定位1.2 插件的 Goals(目标)1.3 插件定位1.4 核

SpringBoot整合Dubbo+ZK注册失败的坑及解决

《SpringBoot整合Dubbo+ZK注册失败的坑及解决》使用Dubbo框架时,需在公共pom添加依赖,启动类加@EnableDubbo,实现类用@DubboService替代@Service,配... 目录1.先看下公共的pom(maven创建的pom工程)2.启动类上加@EnableDubbo3.实

Kotlin Map映射转换问题小结

《KotlinMap映射转换问题小结》文章介绍了Kotlin集合转换的多种方法,包括map(一对一转换)、mapIndexed(带索引)、mapNotNull(过滤null)、mapKeys/map... 目录Kotlin 集合转换:map、mapIndexed、mapNotNull、mapKeys、map

nginx中端口无权限的问题解决

《nginx中端口无权限的问题解决》当Nginx日志报错bind()to80failed(13:Permissiondenied)时,这通常是由于权限不足导致Nginx无法绑定到80端口,下面就来... 目录一、问题原因分析二、解决方案1. 以 root 权限运行 Nginx(不推荐)2. 为 Nginx

解决1093 - You can‘t specify target table报错问题及原因分析

《解决1093-Youcan‘tspecifytargettable报错问题及原因分析》MySQL1093错误因UPDATE/DELETE语句的FROM子句直接引用目标表或嵌套子查询导致,... 目录报js错原因分析具体原因解决办法方法一:使用临时表方法二:使用JOIN方法三:使用EXISTS示例总结报错原