【预训练语言模型】SpanBERT: Improving Pre-training by Representing...

本文主要是介绍【预训练语言模型】SpanBERT: Improving Pre-training by Representing...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【预训练语言模型】SpanBERT: Improving Pre-training by Representing and Predicting Spans (2020ACL)

  陈丹琦团队的一篇改进BERT预训练任务的工作,扩展了BERT预训练语言模型:

  • 不像BERT只MASK单独的一个token,而是随机MASK掉连续的序列( contiguous random span);
  • 训练span boundary representation预测mask掉的整个区间内容;

1、动机:

  • 许多NLP任务涉及到包含多个span之间关系的推理,传统的BERT则无法处理这类问题;
  • 预测一个区间的多个token更加困难;

2、方法:

  • 不同于BERT,我们使用不同的随机策略mask掉一个span;
  • 添加辅助任务SPO,根据span boundary的两个token表征信息来预测span;
  • 随机采样一段文本,而不是两个,删掉了BERT中的Next Sentence Predicition任务

3、span masking

  给定一个文本序列X,从中挑选一些token组成Y集合,并迭代地进行采样。

  • 在每一次采样过程中,先基于几何分布采样span的长度(最短为1,最长为10,p=0.2),平均采样的区间长度约为3.8:
    在这里插入图片描述

  • 然后再基于均匀分布采样span的start位置。由于BERT采用的是word piece,因此需要保证采样的起始点必须是某个单词的起始点。

  • 传统的BERT模型中,对一个句子随机mask 15%的token,这些mask掉的token中,有80%被替换为[MASK],10%为随机替换一个token,10%保持不变。spanBERT中则是对span完成的,也就是说整个span的所有token都会满足“80%被替换为[MASK],10%为随机替换一个token,10%保持不变”的设置。

4、span boundary objective

  任务目标:根据span的前一个与后一个位置的token来预测span的所有token。假设Transformer的每个token输出记作 x 1 , . . . , x n \mathbf{x}_1, ..., \mathbf{x}_n x1,...,xn,给定一个mask span ( x s , . . . , x e ) (x_s, ..., x_e) (xs,...,xe),对mask span内的每一个token的表示,取决于 x s − 1 , x e + 1 \mathbf{x}_{s-1}, \mathbf{x}_{e+1} xs1xe+1、以及位置表征 P i − s + 1 \mathbf{P}_{i - s + 1} Pis+1(相对于 x s − 1 \mathbf{x}_{s-1} xs1的距离):
在这里插入图片描述

其中 f f f 函数为两层前馈网络,并添加Layer normalization:
在这里插入图片描述

最终获得的 y i \mathbf{y}_i yi 表示maxk span中的第 i i i 个[MASK] token,使用交叉熵损失函数作为目标函数,预测该[MASK]对应的词

5、single-sequence training

  作者认为添加next sentence prediction效果不好,因此摈弃这一个任务。

  关于对抽取式问答的下有任务,spanBERT依然在模型的输出部分,添加两个独立的分类器,并分别预测start和end的位置。

这篇关于【预训练语言模型】SpanBERT: Improving Pre-training by Representing...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/199370

相关文章

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

Go语言中json操作的实现

《Go语言中json操作的实现》本文主要介绍了Go语言中的json操作的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录 一、jsOChina编程N 与 Go 类型对应关系️ 二、基本操作:编码与解码 三、结构体标签(Struc

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

python语言中的常用容器(集合)示例详解

《python语言中的常用容器(集合)示例详解》Python集合是一种无序且不重复的数据容器,它可以存储任意类型的对象,包括数字、字符串、元组等,下面:本文主要介绍python语言中常用容器(集合... 目录1.核心内置容器1. 列表2. 元组3. 集合4. 冻结集合5. 字典2.collections模块

基于Go语言开发一个 IP 归属地查询接口工具

《基于Go语言开发一个IP归属地查询接口工具》在日常开发中,IP地址归属地查询是一个常见需求,本文将带大家使用Go语言快速开发一个IP归属地查询接口服务,有需要的小伙伴可以了解下... 目录功能目标技术栈项目结构核心代码(main.go)使用方法扩展功能总结在日常开发中,IP 地址归属地查询是一个常见需求:

GO语言短变量声明的实现示例

《GO语言短变量声明的实现示例》在Go语言中,短变量声明是一种简洁的变量声明方式,使用:=运算符,可以自动推断变量类型,下面就来具体介绍一下如何使用,感兴趣的可以了解一下... 目录基本语法功能特点与var的区别适用场景注意事项基本语法variableName := value功能特点1、自动类型推

GO语言中函数命名返回值的使用

《GO语言中函数命名返回值的使用》在Go语言中,函数可以为其返回值指定名称,这被称为命名返回值或命名返回参数,这种特性可以使代码更清晰,特别是在返回多个值时,感兴趣的可以了解一下... 目录基本语法函数命名返回特点代码示例命名特点基本语法func functionName(parameters) (nam

Go语言连接MySQL数据库执行基本的增删改查

《Go语言连接MySQL数据库执行基本的增删改查》在后端开发中,MySQL是最常用的关系型数据库之一,本文主要为大家详细介绍了如何使用Go连接MySQL数据库并执行基本的增删改查吧... 目录Go语言连接mysql数据库准备工作安装 MySQL 驱动代码实现运行结果注意事项Go语言执行基本的增删改查准备工作

Go语言使用Gin处理路由参数和查询参数

《Go语言使用Gin处理路由参数和查询参数》在WebAPI开发中,处理路由参数(PathParameter)和查询参数(QueryParameter)是非常常见的需求,下面我们就来看看Go语言... 目录一、路由参数 vs 查询参数二、Gin 获取路由参数和查询参数三、示例代码四、运行与测试1. 测试编程路

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据