引入概念的多文本标签分类:Concept-Based Label Embedding via Dynamic Routing for Hierarchical Text Classification

本文主要是介绍引入概念的多文本标签分类:Concept-Based Label Embedding via Dynamic Routing for Hierarchical Text Classification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Zhang, Jiong, Wei-Cheng Chang, Hsiang-Fu Yu, and Inderjit Dhillon. “Fast Multi-Resolution Transformer Fine-Tuning for Extreme Multi-Label Text Classification.” In Advances in Neural Information Processing Systems, 34:7267–80. Curran Associates, Inc., 2021. Fast Multi-Resolution Transformer Fine-tuning for Extreme Multi-label Text Classification.

1 Motivation

        传统的层次多标签文本分类中,忽略了同一层次类之间的信息,比如图中,sport在第一层,是父类,surfing到college是第二层的子类。而在第二层中,surfing和swimming是跟water有关,其余两组类似。文章将water、ball、academy定义为相应子类共享的抽象概念,因而说本文方法是基于概念的标签文本嵌入。

        同理,在数据集wos中,也发现了类似的概念。

2 Methods

         本文提出了基于层次注意力的架构(Hierarchical Sttention-Based Framework,左),其中包含基于概念的分类器(CCM,右上),CCM包含概念共享模块(CSM,下)。下面分别介绍。

2.1 Hierarchical Sttention-Based Framework

Text Encoder

        对于文本,使用CNN进行n-gram特征的提取,然后用双向GRU提取上下文特征,最后得到:

作为文档的表征,|d|为token的个数。

Label Embedding Attention

        第i层的标签表示为:,首先计算余弦相似矩阵,其中。使用卷积核对每一个词p,提取其上下k个长度的特征:,然后使用最大池得到词p对第i层每一个标签的相关值:,用softmax将r标准化之后,计算标签和文本之间的注意力分数:

 2.2 Concept Sharing Module (CSM)

        上面是主体框架,文档的表征已经说明了来源,而CSM和CCM就是获得标签的表征C的。

Concepts Encoder

        首先对于每一个类c,将其语料库中的关键词拿出来,并将其中的top-n作为这个类的概念。对于关键词,wos中每个文档都有相应的关键词,可以直接使用。DBpeida中没有,本文使用卡方检验获得单词和类之间的依赖关系,并根据卡方值进行排序。

        两种方法编码概念:

        1) 直接使用top-n个关键词

        2) 将所有关键词进行聚类(GloVe 300-dimensional embeddings作为词嵌入的初始化),然后选取聚类的中心词

        这两种方法得到的结果都可以表示为:

 Concepts Sharing via Dynamic Routing

        对于HTC问题,子类和父类、不同类之间共享一些概念。不同概念从不同的角度描述一个类,而概念的共享体现了类间的语义联系。使用下述方法迭代更新标签表征:

 

 beta表示概念i和类j的耦合因子(couping coefficient),b的来源见上图

v为类的表征,类似于注意力机制

 然后将v压缩得到c(squashing)

对上述过程迭代r次得到最后的表示。

2.3 Classification

损失函数为每层的损失之和:

3   Experiments

3.1 datasets

 3.2 Ablation

3.3  Visualizations

感想

        本文乍一看比较复杂,但实际上还是与LightXML类似,都是将标签进行聚类。与之不同的是,本文使用的不是传统的聚类,而是采用语义。

这篇关于引入概念的多文本标签分类:Concept-Based Label Embedding via Dynamic Routing for Hierarchical Text Classification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/795968

相关文章

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

全面解析HTML5中Checkbox标签

《全面解析HTML5中Checkbox标签》Checkbox是HTML5中非常重要的表单元素之一,通过合理使用其属性和样式自定义方法,可以为用户提供丰富多样的交互体验,这篇文章给大家介绍HTML5中C... 在html5中,Checkbox(复选框)是一种常用的表单元素,允许用户在一组选项中选择多个项目。本

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

MySQL 事务的概念及ACID属性和使用详解

《MySQL事务的概念及ACID属性和使用详解》MySQL通过多线程实现存储工作,因此在并发访问场景中,事务确保了数据操作的一致性和可靠性,下面通过本文给大家介绍MySQL事务的概念及ACID属性和... 目录一、什么是事务二、事务的属性及使用2.1 事务的 ACID 属性2.2 为什么存在事务2.3 事务

使用Python和Tkinter实现html标签去除工具

《使用Python和Tkinter实现html标签去除工具》本文介绍用Python和Tkinter开发的HTML标签去除工具,支持去除HTML标签、转义实体并输出纯文本,提供图形界面操作及复制功能,需... 目录html 标签去除工具功能介绍创作过程1. 技术选型2. 核心实现逻辑3. 用户体验增强如何运行

CSS引入方式和选择符的讲解和运用小结

《CSS引入方式和选择符的讲解和运用小结》CSS即层叠样式表,是一种用于描述网页文档(如HTML或XML)外观和格式的样式表语言,它主要用于将网页内容的呈现(外观)和结构(内容)分离,从而实现... 目录一、前言二、css 是什么三、CSS 引入方式1、行内样式2、内部样式表3、链入外部样式表四、CSS 选

Maven中引入 springboot 相关依赖的方式(最新推荐)

《Maven中引入springboot相关依赖的方式(最新推荐)》:本文主要介绍Maven中引入springboot相关依赖的方式(最新推荐),本文给大家介绍的非常详细,对大家的学习或工作具有... 目录Maven中引入 springboot 相关依赖的方式1. 不使用版本管理(不推荐)2、使用版本管理(推

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型

C#TextBox设置提示文本方式(SetHintText)

《C#TextBox设置提示文本方式(SetHintText)》:本文主要介绍C#TextBox设置提示文本方式(SetHintText),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录C#TextBox设置提示文本效果展示核心代码总结C#TextBox设置提示文本效果展示核心代