医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking

本文主要是介绍医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、动机

论文:https://arxiv.org/abs/2012.08844

代码:https://github.com/tigerchen52/Biomedical-Entity-Linking

医疗实体链接 (Biomedical Entity Linking) 把文档中发现的疾病、药物、手术名词(mention)映射到知识库(knowledge base)中的标准术语词。

这项任务其实是非常有挑战的,这是因为文档中出现的医疗词语存在着多种变化,比如缩写、同义词、词形态变化、词序、错别字等。

其次,知识库中的标准术语集规模不算小,少的几万个术语,多的几十万个。更麻烦的是,这些术语长得还非常像,难以区分。

最后,医疗知识库不像传统的知识库WikiData和YAGO,术语(或实体)的信息只有一个实体名字,像实体描述、实体属性等待信息都是没有的,这给医疗实体链接带来了很大的难度。
如下例子,对于输入“decreases in hemoglobin”, 我们可以从MedDRA疾病词库中找到至少四个候选实体,你能找到正确的术语是哪一个吗?(答案是第三个)

decreases in hemoglobin1. increase in hematocrit
2. changes in hemoglobin
3. haemoglobin decreased
4. decreases in platelets
5. ......

最近BERT模型在NLP各个任务上都取得了惊人的成绩,也有人使用它在这个任务上进行了尝试,也取得SOTA的结果。

但是BERT模型上百万的参数在某种程度上也限制了它在资源受限(resourece-limted)场景下的使用。

因此,作者提出了一个想法,是否能使用一个简单的模型解决这个问题,而且在准确率上又差的不多呢?

 

这篇论文就是从这个问题出发,具体来说这项工作贡献如下:

  1. 作者提出了一种简单而有效神经网络模型,在三个医疗实体链接任务上,这个模型与BERT在统计上并无显著差异
  2. 这个模型比BERT小23倍,推理时间少6.4倍
  3. 除此之外,作者还探索如何在这个任务上使用额外特征,其中包括先验知识(Prior)、上下文(Context)、实体一致性(Coherence)

二、方法

模型的框架图如上所示,首先进行预处理,将mention和实体名称转化成统一的格式,然后再从知识库中找到top-k个候选实体,最后对这些实体进行排序输出得分最高的一个作为这个输入mention的标准术语。

上图是文章中的排序模型,作者首先使用预训练word embedding表示单词,然后为了解决out-of-vocabulary和错别字的问题,增加了character embedding。

Alignment Layer用来捕捉另一个文本中相似的部分,使用交互的信息进行表示每个文本,这样能够丰富单个文本的表示,很大程度提升模型的能力。

然后使用一个CNN层去提取关键特征,最后将两个文本的表示拼接在一起送入一个两层的全连接网络,这样就能计算出一个base score了。

除此之外,这个模型还可以加入先验信息、上下文信息、一致性信息。

三、实验

从上表中可以看出,作者的简单的base模型与BERT非常接近,在NCBI数据集上还超过了BERT模型。 

在base模型上加入额外特征还能够得到一定收益。

下表是作者模型大小和推理时间,在这两个维度上,作者的base模型都是有显著的优势的。

 

这篇关于医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1003995

相关文章

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

Redis实现高效内存管理的示例代码

《Redis实现高效内存管理的示例代码》Redis内存管理是其核心功能之一,为了高效地利用内存,Redis采用了多种技术和策略,如优化的数据结构、内存分配策略、内存回收、数据压缩等,下面就来详细的介绍... 目录1. 内存分配策略jemalloc 的使用2. 数据压缩和编码ziplist示例代码3. 优化的

Python 基于http.server模块实现简单http服务的代码举例

《Python基于http.server模块实现简单http服务的代码举例》Pythonhttp.server模块通过继承BaseHTTPRequestHandler处理HTTP请求,使用Threa... 目录测试环境代码实现相关介绍模块简介类及相关函数简介参考链接测试环境win11专业版python

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

使用Spring Cache本地缓存示例代码

《使用SpringCache本地缓存示例代码》缓存是提高应用程序性能的重要手段,通过将频繁访问的数据存储在内存中,可以减少数据库访问次数,从而加速数据读取,:本文主要介绍使用SpringCac... 目录一、Spring Cache简介核心特点:二、基础配置1. 添加依赖2. 启用缓存3. 缓存配置方案方案

MySQL的配置文件详解及实例代码

《MySQL的配置文件详解及实例代码》MySQL的配置文件是服务器运行的重要组成部分,用于设置服务器操作的各种参数,下面:本文主要介绍MySQL配置文件的相关资料,文中通过代码介绍的非常详细,需要... 目录前言一、配置文件结构1.[mysqld]2.[client]3.[mysql]4.[mysqldum

Python多线程实现大文件快速下载的代码实现

《Python多线程实现大文件快速下载的代码实现》在互联网时代,文件下载是日常操作之一,尤其是大文件,然而,网络条件不稳定或带宽有限时,下载速度会变得很慢,本文将介绍如何使用Python实现多线程下载... 目录引言一、多线程下载原理二、python实现多线程下载代码说明:三、实战案例四、注意事项五、总结引

IDEA与MyEclipse代码量统计方式

《IDEA与MyEclipse代码量统计方式》文章介绍在项目中不安装第三方工具统计代码行数的方法,分别说明MyEclipse通过正则搜索(排除空行和注释)及IDEA使用Statistic插件或调整搜索... 目录项目场景MyEclipse代码量统计IDEA代码量统计总结项目场景在项目中,有时候我们需要统计