RoNID:通过生成可靠标签与聚类友好型表征来实现新意图的发现

2024-05-03 10:52

本文主要是介绍RoNID:通过生成可靠标签与聚类友好型表征来实现新意图的发现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文地址:https://arxiv.org/abs/2404.08977

原文地址:intents-are-not-going-away-ronid-is-a-new-intent-discovery-framework

2024 年 4 月 26 日

Robust New Intent Discovery(RoNID)框架致力于在开放域场景中识别已知意图并合理推断新意图组。

问题

传统的聊天机器人系统严重依赖意图。意图完全基于预先定义的(通常是经过深思熟虑的)假设,即用户想要进行的对话。

因此,传统意图的能力有限,只能识别预定义和受限的意图类别。解决聊天机器人这一问题的尝试包括域外检测和知识库回退,这些方法最近已演变成 RAG 方法。

新的用户意图不断从面向客户的实施中出现,这些新意图通常来自向组织引入的新产品和服务。或者系统故障、产品缺陷或产品或服务上线问题等等。

这些新的意图需要动态地发现和聚集。 RoNiD 旨在创建一个框架,其中通过弱监督包括 RLHF,在该框架中识别新意图并确认伪标签。

介绍

该研究的重点是建立可靠的伪标签并获得聚类友好的判别表示。

使用的两个模型是:

  1. 可靠的伪标签生成模块
  2. 聚类友好的表示学习模块。

文本描述了一个名为 RoNID 的过程,它生成可靠的合成标签和聚类友好的表示。

简单来说,这意味着 RoNID 创建准确的标签并以更易于理解的方式组织数据。这是通过两个主要步骤完成的:

标签生成

RoNID通过解决特定问题为数据分配准确的标签;这有助于为进一步分析提供明确的指导。

表征学习

RoNID 组织数据,以便相似的项目被分组在一起(聚类紧凑性),而不同的组被很好地分开(聚类间分离)。此步骤可以更轻松地查看数据中的模式和差异。

通过重复这些步骤,RoNID 创建了一个具有准确标签和组织良好的数据的可靠模型。测试表明,该方法大大优于以前的技术,在各种基准测试中将结果提高了 1 到 4 个点。

意图与对话

准确理解和识别用户意图对于下游面向任务的对话系统非常重要,它直接影响用户体验。如果意图识别不正确,则呈现给用户的对话流与用户的意图不匹配。

随后,用户试图从一个流程转移到另一个流程;如果没有计划好这种转移,用户会感到更加沮丧。

Out-Of-Domain

上面的场景(a)展示了已知意图和新意图是如何被分组的。而场景(b)展示了RoNID方法,其中已知意图和新的/未知的意图是基于可靠的伪标签和聚类表征被分离的。

NID

半监督 NID 通常采用 k-means 算法进行伪标签分配并学习判别意图特征。

RoNID 框架通过在一个步骤中解决特定问题来获得可靠的伪标签,在另一个步骤中,它通过组合不同类型的损失来学习以一种易于理解的方式组织数据。

最后

在这项研究中,研究人员引入了针对 NID 问题的 EM-optimised RoNID 框架。它由两个主要部分组成:可靠的伪标签生成模块和聚类友好的表示学习模块。

伪标签生成模块通过解决特定问题分配精确的伪标签来确保准确的监督。表示学习模块通过关注簇内和簇间差异来提高表示的质量。这有助于区分已知意图和新意图。

他们的实验表明 RoNID 是有效的,并且比以前最先进的方法表现得更好。

RoNID 使用迭代方法通过创建可靠的伪标签并将数据组织到集群中来提高模型性能。

该方法包括三个主要步骤:

  1. 首先,使用标记和未标记数据预训练特征提取器,以实现更好的知识迁移。
  2. 然后,通过解决特定问题来提高伪标签的准确性。
  3. 最后,引入簇内和簇间对比学习,为已知和新颖的意图创建不同的表示簇。

为了给表示学习模块提供高质量的监督信号,该研究提出生成可靠的伪标签来指导模型训练,从而将无监督训练样本转化为伪监督样本。

这篇关于RoNID:通过生成可靠标签与聚类友好型表征来实现新意图的发现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/956569

相关文章

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库

linux下shell脚本启动jar包实现过程

《linux下shell脚本启动jar包实现过程》确保APP_NAME和LOG_FILE位于目录内,首次启动前需手动创建log文件夹,否则报错,此为个人经验,供参考,欢迎支持脚本之家... 目录linux下shell脚本启动jar包样例1样例2总结linux下shell脚本启动jar包样例1#!/bin

go动态限制并发数量的实现示例

《go动态限制并发数量的实现示例》本文主要介绍了Go并发控制方法,通过带缓冲通道和第三方库实现并发数量限制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录带有缓冲大小的通道使用第三方库其他控制并发的方法因为go从语言层面支持并发,所以面试百分百会问到