引入概念的多文本标签分类：Concept-Based Label Embedding via Dynamic Routing for Hierarchical Text Classification

2024-03-11 00:08

文章标签 分类概念 dynamic 标签引入文本 label based text embedding classification via hierarchical routing concept

本文主要是介绍引入概念的多文本标签分类：Concept-Based Label Embedding via Dynamic Routing for Hierarchical Text Classification，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Zhang, Jiong, Wei-Cheng Chang, Hsiang-Fu Yu, and Inderjit Dhillon. “Fast Multi-Resolution Transformer Fine-Tuning for Extreme Multi-Label Text Classification.” In Advances in Neural Information Processing Systems, 34:7267–80. Curran Associates, Inc., 2021. Fast Multi-Resolution Transformer Fine-tuning for Extreme Multi-label Text Classification.

1 Motivation

传统的层次多标签文本分类中，忽略了同一层次类之间的信息，比如图中，sport在第一层，是父类，surfing到college是第二层的子类。而在第二层中，surfing和swimming是跟water有关，其余两组类似。文章将water、ball、academy定义为相应子类共享的抽象概念，因而说本文方法是基于概念的标签文本嵌入。

同理，在数据集wos中，也发现了类似的概念。

2 Methods

本文提出了基于层次注意力的架构（Hierarchical Sttention-Based Framework，左），其中包含基于概念的分类器（CCM，右上），CCM包含概念共享模块（CSM，下）。下面分别介绍。

2.1 Hierarchical Sttention-Based Framework

Text Encoder

对于文本，使用CNN进行n-gram特征的提取，然后用双向GRU提取上下文特征，最后得到：

作为文档的表征，|d|为token的个数。

Label Embedding Attention

第i层的标签表示为：，首先计算余弦相似矩阵，其中。使用卷积核对每一个词p，提取其上下k个长度的特征：，然后使用最大池得到词p对第i层每一个标签的相关值：，用softmax将r标准化之后，计算标签和文本之间的注意力分数：

2.2 Concept Sharing Module (CSM)

上面是主体框架，文档的表征已经说明了来源，而CSM和CCM就是获得标签的表征C的。

Concepts Encoder

首先对于每一个类c，将其语料库中的关键词拿出来，并将其中的top-n作为这个类的概念。对于关键词，wos中每个文档都有相应的关键词，可以直接使用。DBpeida中没有，本文使用卡方检验获得单词和类之间的依赖关系，并根据卡方值进行排序。

两种方法编码概念：

1）直接使用top-n个关键词

2）将所有关键词进行聚类（GloVe 300-dimensional embeddings作为词嵌入的初始化），然后选取聚类的中心词

这两种方法得到的结果都可以表示为：

Concepts Sharing via Dynamic Routing

对于HTC问题，子类和父类、不同类之间共享一些概念。不同概念从不同的角度描述一个类，而概念的共享体现了类间的语义联系。使用下述方法迭代更新标签表征：

beta表示概念i和类j的耦合因子（couping coefficient），b的来源见上图

v为类的表征，类似于注意力机制

然后将v压缩得到c（squashing）

对上述过程迭代r次得到最后的表示。

2.3 Classification

损失函数为每层的损失之和：

3 Experiments

3.1 datasets

3.2 Ablation

3.3 Visualizations

感想

本文乍一看比较复杂，但实际上还是与LightXML类似，都是将标签进行聚类。与之不同的是，本文使用的不是传统的聚类，而是采用语义。

这篇关于引入概念的多文本标签分类：Concept-Based Label Embedding via Dynamic Routing for Hierarchical Text Classification的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/795968。 23002807@qq.com

相关文章

PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例

PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例

《PyTorch中的词嵌入层(nn.Embedding)详解与实战应用示例》词嵌入解决NLP维度灾难,捕捉语义关系,PyTorch的nn.Embedding模块提供灵活实现,支持参数配置、预训练及变长... 目录一、词嵌入(Word Embedding)简介为什么需要词嵌入？二、PyTorch中的nn.Em

阅读更多...

MySQL中的索引结构和分类实战案例详解

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

阅读更多...

HTML中meta标签的常见使用案例(示例详解)

HTML中meta标签的常见使用案例(示例详解)

《HTML中meta标签的常见使用案例(示例详解)》HTMLmeta标签用于提供文档元数据,涵盖字符编码、SEO优化、社交媒体集成、移动设备适配、浏览器控制及安全隐私设置,优化页面显示与搜索引擎索引... 目录html中meta标签的常见使用案例一、基础功能二、搜索引擎优化（seo）三、社交媒体集成四、移动

阅读更多...

HTML input 标签示例详解

HTML input 标签示例详解

《HTMLinput标签示例详解》input标签主要用于接收用户的输入，随type属性值的不同，变换其具体功能,本文通过实例图文并茂的形式给大家介绍HTMLinput标签，感兴趣的朋友一... 目录通用属性输入框单行文本输入框 text密码输入框 password数字输入框 number电子邮件输入编程框

阅读更多...

HTML img标签和超链接标签详细介绍

HTML img标签和超链接标签详细介绍

《HTMLimg标签和超链接标签详细介绍》：本文主要介绍了HTML中img标签的使用，包括src属性（指定图片路径）、相对/绝对路径区别、alt替代文本、title提示、宽高控制及边框设置等，详细内容请阅读本文，希望能对你有所帮助... 目录img 标签src 属性alt 属性title 属性width/h

阅读更多...

HTML5 中的＜button＞标签用法和特征

HTML5 中的＜button＞标签用法和特征

《HTML5中的＜button＞标签用法和特征》在HTML5中，button标签用于定义一个可点击的按钮，它是创建交互式网页的重要元素之一，本文将深入解析HTML5中的button标签，详细介绍其属... 目录引言<button> 标签的基本用法<button> 标签的属性typevaluedisabled

阅读更多...

Python中图片与PDF识别文本(OCR)的全面指南

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

阅读更多...

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面，macOS26采用了全新的玻璃质感视觉风格，应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日（6 月 13 日）发布博文，报道称在 macOS 26 Tahoe 中

阅读更多...

全面解析HTML5中Checkbox标签

全面解析HTML5中Checkbox标签

《全面解析HTML5中Checkbox标签》Checkbox是HTML5中非常重要的表单元素之一，通过合理使用其属性和样式自定义方法，可以为用户提供丰富多样的交互体验，这篇文章给大家介绍HTML5中C... 在html5中，Checkbox（复选框）是一种常用的表单元素，允许用户在一组选项中选择多个项目。本

阅读更多...

Python实现精准提取 PDF中的文本,表格与图片

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容：获取整页文本与指定区域内容获取页面上的所有文本内容获取

阅读更多...