Big Bird: Transformers for Longer Sequences论文详解

2024-05-14 11:38

文章标签 详解论文 bird big transformers sequences longer

本文主要是介绍Big Bird: Transformers for Longer Sequences论文详解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

Big Bird大鸟模型
论文要解决问题
解决方法
- 随机注意力
- 固定窗口注意力
- 全局注意力
- 复杂度分析
实验
- 三种注意力的消融实验。
- 语言模型对比roberta、longformer
- QA问题中对比longformer
- 长文本分类任务
- 文章摘要任务
- 基因语言模型实验
如有问题欢迎指出，参考论文https://arxiv.org/abs/2007.14062

Big Bird大鸟模型

论文要解决问题

如下图，Transformer模型中，注意力中Q、K点乘的内存、速度是序列长度的平方复杂度。长文本时，这个复杂度是不可接受的。一般做法是切成512的块，这种做法损失了块与块之间的信息，例如QA问题中Q必须看到所有A才行，文章摘要中必须看到全部文章。论文提出了一个O(n)复杂度的算法，能够解决以上问题，同时该论文还证明这种方法是图灵完备的。

解决方法

论文提出固定窗口、全局注意力、随机注意力。除了随机注意力外，这些方法几乎和longformer一样。longformer可以参考我的另外一篇文章longformer论文解析。和longformer相比，该文做了大量实验，且证明是图灵完备的。
如下图，横坐标是Q，纵坐标是K，QK的数量都是序列长度，所以是正方形。图中有色面积代表Q*K的数量。图a是随机注意，图b是固定窗口，c是全局注意力，d是三种汇总。
三种注意力都使用稀疏矩阵实现。

随机注意力

对于每个Q，都等概率随机关注r个Key,就像图中A所示。实验中r在200左右。

固定窗口注意力

对于每个Q，都关注相邻的左边w/2个Key，右边w/2个key。这个主要是大多数nlp任务中，都可以发现，相邻文本影响比较大。实验中w在252左右。

全局注意力

有部分特殊的Q关注全部的Key,论文中分两种。一种是BigBird-itc, 也就是在现有的token中选一部分Q关注全部的K。一种是BigBird-etc，增加token，关注全部的token。全局注意力的数量在256左右。

复杂度分析

三种注意力复杂度大概就是（200 + 252 + 256 ）* n的复杂度。我们可以看出，虽然是线性复杂度，但是系数非常大。而且稀疏矩阵的乘法远远低于高度优化的原始attention的dense矩阵乘法。但是太长文本，dense矩阵无法存储也无法计算，也是硬伤。

实验

文章中做了大量的长序列实验，甚至基因序列实验，证明的改方法的有效性。

三种注意力的消融实验。

用512长度的bert-base对比，三种注意力结合使用，基本接近bert-base效果。

语言模型对比roberta、longformer

长文本（4096）的语言模型中，优于roberta,itc低于longformer,etc高于longformer。

QA问题中对比longformer

QA问题是一个长文本分析的任务，每个Q都看到所以的A才能回答比较好。big bird-itc、etc都接近longformer。

长文本分类任务

在长文本分类任务中，Bigbird比robert提高5个点。

文章摘要任务

文章摘要是一个明显的长文本任务，摘要肯定不能只靠前512个token在生成。可以看到big-brid base large模型都明显提升。

基因语言模型实验

基因是明显非常长的片段，是一个非常好的长序列的任务。基因片段也是类似bert的方法，先用sentense piece方法切分成词，然后随机遮住片段（10% 的概率），训练模型预测遮住的片段，使用mlm模型。
实验结果展示，好于bert的效果。

如有问题欢迎指出，参考论文https://arxiv.org/abs/2007.14062

这篇关于Big Bird: Transformers for Longer Sequences论文详解的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/988645。 23002807@qq.com

相关文章

Python使用Tenacity一行代码实现自动重试详解

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门：一行代码实现优雅重试精细控制：让重试按我

阅读更多...

Python标准库之数据压缩和存档的应用详解

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile：专业级归档工具2.zipfile：跨平台归档首选3.

阅读更多...

idea的终端(Terminal)cmd的命令换成linux的命令详解

idea的终端(Terminal)cmd的命令换成linux的命令详解

《idea的终端(Terminal)cmd的命令换成linux的命令详解》本文介绍IDEA配置Git的步骤：安装Git、修改终端设置并重启IDEA,强调顺序,作为个人经验分享,希望提供参考并支持脚本之... 目录一编程、设置前二、前置条件三、android设置四、设置后总结一、php设置前二、前置条件

阅读更多...

python中列表应用和扩展性实用详解

python中列表应用和扩展性实用详解

《python中列表应用和扩展性实用详解》文章介绍了Python列表的核心特性：有序数据集合,用[]定义,元素类型可不同,支持迭代、循环、切片,可执行增删改查、排序、推导式及嵌套操作,是常用的数据处理... 目录1、列表定义2、格式3、列表是可迭代对象4、列表的常见操作总结1、列表定义是处理一组有序项目的

阅读更多...

python使用try函数详解

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

阅读更多...

C++11范围for初始化列表auto decltype详解

C++11范围for初始化列表auto decltype详解

《C++11范围for初始化列表autodecltype详解》C++11引入auto类型推导、decltype类型推断、统一列表初始化、范围for循环及智能指针,提升代码简洁性、类型安全与资源管理效... 目录C++11新特性1. 自动类型推导auto1.1 基本语法2. decltype3. 列表初始化3

阅读更多...

SQL Server 中的 WITH (NOLOCK) 示例详解

SQL Server 中的 WITH (NOLOCK) 示例详解

《SQLServer中的WITH(NOLOCK)示例详解》SQLServer中的WITH(NOLOCK)是一种表提示,等同于READUNCOMMITTED隔离级别,允许查询在不获取共享锁的情... 目录SQL Server 中的 WITH (NOLOCK) 详解一、WITH (NOLOCK) 的本质二、工作

阅读更多...

springboot自定义注解RateLimiter限流注解技术文档详解

springboot自定义注解RateLimiter限流注解技术文档详解

《springboot自定义注解RateLimiter限流注解技术文档详解》文章介绍了限流技术的概念、作用及实现方式,通过SpringAOP拦截方法、缓存存储计数器,结合注解、枚举、异常类等核心组件,... 目录什么是限流系统架构核心组件详解1. 限流注解 (@RateLimiter)2. 限流类型枚举 (

阅读更多...

Java Thread中join方法使用举例详解

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原

阅读更多...

Spring AI使用tool Calling和MCP的示例详解

Spring AI使用tool Calling和MCP的示例详解

《SpringAI使用toolCalling和MCP的示例详解》SpringAI1.0.0.M6引入ToolCalling与MCP协议,提升AI与工具交互的扩展性与标准化,支持信息检索、行动执行等... 目录深入探索 Spring AI聊天接口示例Function CallingMCPSTDIOSSE结束语

阅读更多...