Big Bird: Transformers for Longer Sequences论文详解

2024-05-14 11:38

本文主要是介绍Big Bird: Transformers for Longer Sequences论文详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • Big Bird大鸟模型
  • 论文要解决问题
  • 解决方法
    • 随机注意力
    • 固定窗口注意力
    • 全局注意力
    • 复杂度分析
  • 实验
    • 三种注意力的消融实验。
    • 语言模型对比roberta、longformer
    • QA问题中对比longformer
    • 长文本分类任务
    • 文章摘要任务
    • 基因语言模型实验
  • 如有问题欢迎指出,参考论文https://arxiv.org/abs/2007.14062

Big Bird大鸟模型

论文要解决问题

  • 如下图,Transformer模型中,注意力中Q、K点乘的内存、速度是序列长度的平方复杂度。长文本时,这个复杂度是不可接受的。一般做法是切成512的块,这种做法损失了块与块之间的信息,例如QA问题中Q必须看到所有A才行,文章摘要中必须看到全部文章。论文提出了一个O(n)复杂度的算法,能够解决以上问题,同时该论文还证明这种方法是图灵完备的。
    在这里插入图片描述

解决方法

  • 论文提出固定窗口、全局注意力、随机注意力。除了随机注意力外,这些方法几乎和longformer一样。longformer可以参考我的另外一篇文章longformer论文解析。和longformer相比,该文做了大量实验,且证明是图灵完备的。
  • 如下图,横坐标是Q,纵坐标是K,QK的数量都是序列长度,所以是正方形。图中有色面积代表Q*K的数量。图a是随机注意,图b是固定窗口,c是全局注意力,d是三种汇总。
  • 三种注意力都使用稀疏矩阵实现。
    在这里插入图片描述

随机注意力

  • 对于每个Q,都等概率随机关注r个Key,就像图中A所示。实验中r在200左右。

固定窗口注意力

  • 对于每个Q,都关注相邻的左边w/2个Key,右边w/2个key。这个主要是大多数nlp任务中,都可以发现,相邻文本影响比较大。实验中w在252左右。

全局注意力

  • 有部分特殊的Q关注全部的Key,论文中分两种。一种是BigBird-itc, 也就是在现有的token中选一部分Q关注全部的K。 一种是BigBird-etc,增加token,关注全部的token。全局注意力的数量在256左右。

复杂度分析

  • 三种注意力复杂度大概就是(200 + 252 + 256 )* n的复杂度。我们可以看出,虽然是线性复杂度,但是系数非常大。而且稀疏矩阵的乘法远远低于高度优化的原始attention的dense矩阵乘法。但是太长文本,dense矩阵无法存储也无法计算,也是硬伤。

实验

  • 文章中做了大量的长序列实验,甚至基因序列实验,证明的改方法的有效性。

三种注意力的消融实验。

  • 用512长度的bert-base对比,三种注意力结合使用,基本接近bert-base效果。
    在这里插入图片描述

语言模型对比roberta、longformer

  • 长文本(4096)的语言模型中,优于roberta,itc低于longformer,etc高于longformer。
    在这里插入图片描述

QA问题中对比longformer

  • QA问题是一个长文本分析的任务,每个Q都看到所以的A才能回答比较好。big bird-itc、etc都接近longformer。
    在这里插入图片描述

长文本分类任务

  • 在长文本分类任务中,Bigbird比robert提高5个点。
    在这里插入图片描述

文章摘要任务

  • 文章摘要是一个明显的长文本任务,摘要肯定不能只靠前512个token在生成。可以看到big-brid base large模型都明显提升。
    在这里插入图片描述

基因语言模型实验

  • 基因是明显非常长的片段,是一个非常好的长序列的任务。基因片段也是类似bert的方法,先用sentense piece方法切分成词,然后随机遮住片段(10% 的概率),训练模型预测遮住的片段,使用mlm模型。
    在这里插入图片描述
  • 实验结果展示,好于bert的效果。
    在这里插入图片描述

如有问题欢迎指出,参考论文https://arxiv.org/abs/2007.14062

这篇关于Big Bird: Transformers for Longer Sequences论文详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/988645

相关文章

HTML5 搜索框Search Box详解

《HTML5搜索框SearchBox详解》HTML5的搜索框是一个强大的工具,能够有效提升用户体验,通过结合自动补全功能和适当的样式,可以创建出既美观又实用的搜索界面,这篇文章给大家介绍HTML5... html5 搜索框(Search Box)详解搜索框是一个用于输入查询内容的控件,通常用于网站或应用程

Python中使用uv创建环境及原理举例详解

《Python中使用uv创建环境及原理举例详解》uv是Astral团队开发的高性能Python工具,整合包管理、虚拟环境、Python版本控制等功能,:本文主要介绍Python中使用uv创建环境及... 目录一、uv工具简介核心特点:二、安装uv1. 通过pip安装2. 通过脚本安装验证安装:配置镜像源(可

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》:本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

CSS3中的字体及相关属性详解

《CSS3中的字体及相关属性详解》:本文主要介绍了CSS3中的字体及相关属性,详细内容请阅读本文,希望能对你有所帮助... 字体网页字体的三个来源:用户机器上安装的字体,放心使用。保存在第三方网站上的字体,例如Typekit和Google,可以link标签链接到你的页面上。保存在你自己Web服务器上的字

MySQL存储过程之循环遍历查询的结果集详解

《MySQL存储过程之循环遍历查询的结果集详解》:本文主要介绍MySQL存储过程之循环遍历查询的结果集,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言1. 表结构2. 存储过程3. 关于存储过程的SQL补充总结前言近来碰到这样一个问题:在生产上导入的数据发现

MyBatis ResultMap 的基本用法示例详解

《MyBatisResultMap的基本用法示例详解》在MyBatis中,resultMap用于定义数据库查询结果到Java对象属性的映射关系,本文给大家介绍MyBatisResultMap的基本... 目录MyBATis 中的 resultMap1. resultMap 的基本语法2. 简单的 resul

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

Mybatis Plus Join使用方法示例详解

《MybatisPlusJoin使用方法示例详解》:本文主要介绍MybatisPlusJoin使用方法示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录1、pom文件2、yaml配置文件3、分页插件4、示例代码:5、测试代码6、和PageHelper结合6

一文全面详解Python变量作用域

《一文全面详解Python变量作用域》变量作用域是Python中非常重要的概念,它决定了在哪里可以访问变量,下面我将用通俗易懂的方式,结合代码示例和图表,带你全面了解Python变量作用域,需要的朋友... 目录一、什么是变量作用域?二、python的四种作用域作用域查找顺序图示三、各作用域详解1. 局部作