医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking

本文主要是介绍医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、动机

论文:https://arxiv.org/abs/2012.08844

代码:https://github.com/tigerchen52/Biomedical-Entity-Linking

医疗实体链接 (Biomedical Entity Linking) 把文档中发现的疾病、药物、手术名词(mention)映射到知识库(knowledge base)中的标准术语词。

这项任务其实是非常有挑战的,这是因为文档中出现的医疗词语存在着多种变化,比如缩写、同义词、词形态变化、词序、错别字等。

其次,知识库中的标准术语集规模不算小,少的几万个术语,多的几十万个。更麻烦的是,这些术语长得还非常像,难以区分。

最后,医疗知识库不像传统的知识库WikiData和YAGO,术语(或实体)的信息只有一个实体名字,像实体描述、实体属性等待信息都是没有的,这给医疗实体链接带来了很大的难度。
如下例子,对于输入“decreases in hemoglobin”, 我们可以从MedDRA疾病词库中找到至少四个候选实体,你能找到正确的术语是哪一个吗?(答案是第三个)

decreases in hemoglobin1. increase in hematocrit
2. changes in hemoglobin
3. haemoglobin decreased
4. decreases in platelets
5. ......

最近BERT模型在NLP各个任务上都取得了惊人的成绩,也有人使用它在这个任务上进行了尝试,也取得SOTA的结果。

但是BERT模型上百万的参数在某种程度上也限制了它在资源受限(resourece-limted)场景下的使用。

因此,作者提出了一个想法,是否能使用一个简单的模型解决这个问题,而且在准确率上又差的不多呢?

 

这篇论文就是从这个问题出发,具体来说这项工作贡献如下:

  1. 作者提出了一种简单而有效神经网络模型,在三个医疗实体链接任务上,这个模型与BERT在统计上并无显著差异
  2. 这个模型比BERT小23倍,推理时间少6.4倍
  3. 除此之外,作者还探索如何在这个任务上使用额外特征,其中包括先验知识(Prior)、上下文(Context)、实体一致性(Coherence)

二、方法

模型的框架图如上所示,首先进行预处理,将mention和实体名称转化成统一的格式,然后再从知识库中找到top-k个候选实体,最后对这些实体进行排序输出得分最高的一个作为这个输入mention的标准术语。

上图是文章中的排序模型,作者首先使用预训练word embedding表示单词,然后为了解决out-of-vocabulary和错别字的问题,增加了character embedding。

Alignment Layer用来捕捉另一个文本中相似的部分,使用交互的信息进行表示每个文本,这样能够丰富单个文本的表示,很大程度提升模型的能力。

然后使用一个CNN层去提取关键特征,最后将两个文本的表示拼接在一起送入一个两层的全连接网络,这样就能计算出一个base score了。

除此之外,这个模型还可以加入先验信息、上下文信息、一致性信息。

三、实验

从上表中可以看出,作者的简单的base模型与BERT非常接近,在NCBI数据集上还超过了BERT模型。 

在base模型上加入额外特征还能够得到一定收益。

下表是作者模型大小和推理时间,在这两个维度上,作者的base模型都是有显著的优势的。

 

这篇关于医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1003995

相关文章

SpringBoot中配置文件的加载顺序解读

《SpringBoot中配置文件的加载顺序解读》:本文主要介绍SpringBoot中配置文件的加载顺序,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot配置文件的加载顺序1、命令⾏参数2、Java系统属性3、操作系统环境变量5、项目【外部】的ap

利用Python调试串口的示例代码

《利用Python调试串口的示例代码》在嵌入式开发、物联网设备调试过程中,串口通信是最基础的调试手段本文将带你用Python+ttkbootstrap打造一款高颜值、多功能的串口调试助手,需要的可以了... 目录概述:为什么需要专业的串口调试工具项目架构设计1.1 技术栈选型1.2 关键类说明1.3 线程模

Python Transformers库(NLP处理库)案例代码讲解

《PythonTransformers库(NLP处理库)案例代码讲解》本文介绍transformers库的全面讲解,包含基础知识、高级用法、案例代码及学习路径,内容经过组织,适合不同阶段的学习者,对... 目录一、基础知识1. Transformers 库简介2. 安装与环境配置3. 快速上手示例二、核心模

Java的栈与队列实现代码解析

《Java的栈与队列实现代码解析》栈是常见的线性数据结构,栈的特点是以先进后出的形式,后进先出,先进后出,分为栈底和栈顶,栈应用于内存的分配,表达式求值,存储临时的数据和方法的调用等,本文给大家介绍J... 目录栈的概念(Stack)栈的实现代码队列(Queue)模拟实现队列(双链表实现)循环队列(循环数组

Mysql用户授权(GRANT)语法及示例解读

《Mysql用户授权(GRANT)语法及示例解读》:本文主要介绍Mysql用户授权(GRANT)语法及示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql用户授权(GRANT)语法授予用户权限语法GRANT语句中的<权限类型>的使用WITH GRANT

使用Java将DOCX文档解析为Markdown文档的代码实现

《使用Java将DOCX文档解析为Markdown文档的代码实现》在现代文档处理中,Markdown(MD)因其简洁的语法和良好的可读性,逐渐成为开发者、技术写作者和内容创作者的首选格式,然而,许多文... 目录引言1. 工具和库介绍2. 安装依赖库3. 使用Apache POI解析DOCX文档4. 将解析

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符(formatspecifier)快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

python3 gunicorn配置文件的用法解读

《python3gunicorn配置文件的用法解读》:本文主要介绍python3gunicorn配置文件的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python3 gunicorn配置文件配置文件服务启动、重启、关闭启动重启关闭总结python3 gun

关于pandas的read_csv方法使用解读

《关于pandas的read_csv方法使用解读》:本文主要介绍关于pandas的read_csv方法使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录pandas的read_csv方法解读read_csv中的参数基本参数通用解析参数空值处理相关参数时间处理相关

使用Python实现全能手机虚拟键盘的示例代码

《使用Python实现全能手机虚拟键盘的示例代码》在数字化办公时代,你是否遇到过这样的场景:会议室投影电脑突然键盘失灵、躺在沙发上想远程控制书房电脑、或者需要给长辈远程协助操作?今天我要分享的Pyth... 目录一、项目概述:不止于键盘的远程控制方案1.1 创新价值1.2 技术栈全景二、需求实现步骤一、需求