医疗实体链接（标准化）论文解读（附代码） A Lightweight Neural Model for Biomedical Entity Linking

本文主要是介绍医疗实体链接（标准化）论文解读（附代码） A Lightweight Neural Model for Biomedical Entity Linking，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、动机

论文：https://arxiv.org/abs/2012.08844

代码：https://github.com/tigerchen52/Biomedical-Entity-Linking

医疗实体链接 (Biomedical Entity Linking) 把文档中发现的疾病、药物、手术名词（mention）映射到知识库（knowledge base）中的标准术语词。

这项任务其实是非常有挑战的，这是因为文档中出现的医疗词语存在着多种变化，比如缩写、同义词、词形态变化、词序、错别字等。

其次，知识库中的标准术语集规模不算小，少的几万个术语，多的几十万个。更麻烦的是，这些术语长得还非常像，难以区分。

最后，医疗知识库不像传统的知识库WikiData和YAGO，术语（或实体）的信息只有一个实体名字，像实体描述、实体属性等待信息都是没有的，这给医疗实体链接带来了很大的难度。
如下例子，对于输入“decreases in hemoglobin”，我们可以从MedDRA疾病词库中找到至少四个候选实体，你能找到正确的术语是哪一个吗？（答案是第三个）

decreases in hemoglobin1. increase in hematocrit
2. changes in hemoglobin
3. haemoglobin decreased
4. decreases in platelets
5. ......

最近BERT模型在NLP各个任务上都取得了惊人的成绩，也有人使用它在这个任务上进行了尝试，也取得SOTA的结果。

但是BERT模型上百万的参数在某种程度上也限制了它在资源受限（resourece-limted）场景下的使用。

因此，作者提出了一个想法，是否能使用一个简单的模型解决这个问题，而且在准确率上又差的不多呢？

这篇论文就是从这个问题出发，具体来说这项工作贡献如下：

作者提出了一种简单而有效神经网络模型，在三个医疗实体链接任务上，这个模型与BERT在统计上并无显著差异
这个模型比BERT小23倍，推理时间少6.4倍
除此之外，作者还探索如何在这个任务上使用额外特征，其中包括先验知识（Prior）、上下文（Context）、实体一致性（Coherence）

二、方法

模型的框架图如上所示，首先进行预处理，将mention和实体名称转化成统一的格式，然后再从知识库中找到top-k个候选实体，最后对这些实体进行排序输出得分最高的一个作为这个输入mention的标准术语。

上图是文章中的排序模型，作者首先使用预训练word embedding表示单词，然后为了解决out-of-vocabulary和错别字的问题，增加了character embedding。

Alignment Layer用来捕捉另一个文本中相似的部分，使用交互的信息进行表示每个文本，这样能够丰富单个文本的表示，很大程度提升模型的能力。

然后使用一个CNN层去提取关键特征，最后将两个文本的表示拼接在一起送入一个两层的全连接网络，这样就能计算出一个base score了。

除此之外，这个模型还可以加入先验信息、上下文信息、一致性信息。

三、实验

从上表中可以看出，作者的简单的base模型与BERT非常接近，在NCBI数据集上还超过了BERT模型。

在base模型上加入额外特征还能够得到一定收益。

下表是作者模型大小和推理时间，在这两个维度上，作者的base模型都是有显著的优势的。

这篇关于医疗实体链接（标准化）论文解读（附代码） A Lightweight Neural Model for Biomedical Entity Linking的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

医疗实体链接（标准化）论文解读（附代码） A Lightweight Neural Model for Biomedical Entity Linking

一、动机

论文：https://arxiv.org/abs/2012.08844

代码：https://github.com/tigerchen52/Biomedical-Entity-Linking

二、方法

三、实验

相关文章

C#实现千万数据秒级导入的代码

SpringBoot+RustFS 实现文件切片极速上传的实例代码

Python实现Excel批量样式修改器(附完整代码)

Redis实现高效内存管理的示例代码

Python 基于http.server模块实现简单http服务的代码举例

Python从Word文档中提取图片并生成PPT的操作代码

使用Spring Cache本地缓存示例代码

MySQL的配置文件详解及实例代码

Python多线程实现大文件快速下载的代码实现

IDEA与MyEclipse代码量统计方式

医疗实体链接（标准化）论文解读 （附代码） A Lightweight Neural Model for Biomedical Entity Linking

一、动机

论文：https://arxiv.org/abs/2012.08844

代码：https://github.com/tigerchen52/Biomedical-Entity-Linking

二、方法

三、实验

相关文章

医疗实体链接（标准化）论文解读（附代码） A Lightweight Neural Model for Biomedical Entity Linking