牛津大学发布首篇《Transformer多模态学习》综述论文,23页pdf涵盖310篇文献全面阐述MMT的理论与应用

本文主要是介绍牛津大学发布首篇《Transformer多模态学习》综述论文,23页pdf涵盖310篇文献全面阐述MMT的理论与应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【导读】Transformer是当下流行的模型。牛津大学等学者发布首篇《Transformer多模态学习》综述论文,23页pdf涵盖310篇文献全面阐述MMT的理论与应用。

Transformer是一种很有前途的神经网络学习器,在各种机器学习任务中都取得了很大的成功。随着近年来多模态应用和大数据的普及,基于Transformer 的多模态学习已成为人工智能研究的热点。本文介绍了面向多模态数据的Transformer 技术的全面综述。本次综述的主要内容包括:(1)多模态学习、Transformer 生态系统和多模态大数据时代的背景,(2)从几何拓扑的角度对Vanilla Transformer、Vision Transformer和多模态Transformer 进行理论回顾,(3)通过两个重要的范式,即多模态预训练和具体的多模态任务,对多模态Transformer 的应用进行回顾。(4)多模态Transformer 模型和应用共享的共同挑战和设计的总结,以及(5)对社区的开放问题和潜在研究方向的讨论。

人工智能(AI)的最初灵感是模仿人类的感知,如视觉、听觉、触觉、嗅觉。通常情况下,一个模态通常与创建独特通信通道的特定传感器相关联,例如视觉和语言[1]。对于人类来说,我们感官感知的一个基本机制是,为了在动态的、不受约束的环境下恰当地参与世界,我们能够共同利用多种感知数据模式,每一种模式都是具有不同统计特性的独特信息源。例如,一幅图像通过数千个像素给出了“大象在水中玩耍”场景的视觉外观,而相应的文本则用一个使用离散单词的句子描述了这一时刻。从根本上说,多模态人工智能系统需要摄取、解释和推理多模态信息源,以实现类似人类水平的感知能力。多模态学习(MML)是一种构建人工智能模型的通用方法,可以从多模态数据[1]中提取和关联信息。

本综述聚焦于使用Transformers[2]进行多模态学习(如图1所示),其灵感来自于它们在建模不同模态(例如,语言、视觉、听觉)和任务(例如,语言翻译、图像识别、语音识别)方面的内在优势和可扩展性,并且使用较少的模态特定架构假设(例如,翻译不变性和视觉中的局部网格注意偏差)[3]。具体地说,Transformer的输入可以包含一个或多个令牌序列,以及每个序列的属性(例如,形态标签、顺序),自然地允许在不修改架构的情况下使用MML[4]。此外,学习每模态特异性和多模态相关性可以简单地通过控制自注意力的输入模式来实现。关键的是,最近在不同学科探索Transformer架构的研究尝试和活动激增,导致近年来开发了大量新颖的MML方法,以及在[4]、[5]、[6]、[7]、[8]等不同领域取得了显著和多样的进展。这就需要对具有代表性的研究方法进行及时的回顾和总结,以使研究人员能够理解MML领域各相关学科的全局图景,更重要的是能够获得当前研究成果和主要挑战的整体结构图。

为了提高不同学科之间的可读性和可达性,本文采用了一种两层的结构化分类法,分别基于应用维度和挑战维度。这有几个好处:(1)在特定应用领域具有专长的研究人员可以在连接到其他相关领域之前找到适合自己研究领域的应用。(2)将不同领域发展的相似模型设计和体系结构归纳在一个抽象的、公式驱动的视角下,使不同应用中形成的各种模型的数学思想在共同点上相互关联和对比,跨越特定领域的限制。至关重要的是,我们的分类法提供了一个有趣的立体视角,个人作品在应用特异性和配方普遍性的见解。希望这有助于打破领域界限,促进更有效的理念沟通和跨模式交流。通过使用提示建模策略[9]作为研究的基础,我们还包括了经典的分类问题(例如图像分类)——通常被认为是传统MML综述中的单一模态学习应用——[1],[10],[11]——作为特殊的MML应用。

本综述将讨论Transformer架构的多模态具体设计,包括但不限于以下几种模态:RGB图像[5],深度图像[13],视频[7],音频/语音/音乐[13],[14],[15],表[16],场景图/布局[17],[18],[19],姿势骨架[20],SQL[21],[22],菜谱[23],编程语言[24],手语[25],[26],[27],点云[28],符号知识(图)[29],[30],多模式知识图谱[31],草图绘制[32],[33],[34],[35],3D对象/场景[36],[37],[38],文档[39],[40],[41],[42],编程代码[43]和抽象语法树(AST)——一类图[44]、光流[45]、医学知识(如诊断代码本体[46])。注意,本综述将不讨论多模态论文,其中Transformer只是作为特征提取器使用,而没有多模态设计。据我们所知,这是第一个全面回顾基于Transformer的多模态机器学习的状态。

这项综述的主要特点包括:(1)我们强调Transformer的优势是它们可以以一种模式无关的方式工作。因此,它们与各种模态(以及模态的组合)兼容。为了支持这一观点,我们首次从几何拓扑的角度对多模态环境下Transformer的内在特征进行了理解。我们建议将自注意视为一种图风格的建模,它将输入序列(包括单模态和多模态)建模为一个全连接图。具体地说,自注意模型将任意模态中的任意标记嵌入为一个图节点。(2) 我们在多模态环境中尽可能以数学的方式讨论Transformer的关键部件。(3)基于Transformer,跨模态交互(如融合、对齐)本质上是由自注意及其变体处理的。在本文中,我们从自注意力设计的角度,提取了基于MML实践的Transformer的数学本质和公式。在介绍了我们对多模态学习、Transformer生态系统和多模态大数据时代的综述之后,我们总结了我们的主要贡献如下。(1)我们从几何拓扑的角度对Vanilla Transformer、视觉Transformer和多模态Transformer进行了理论回顾。(2)我们从两个互补的角度对基于Transformer的MML进行了分类,即基于应用和基于挑战。在第4节中,我们通过两个重要的范例,即多模态预训练和具体的多模态任务,对多模态Transformer的应用进行了回顾。在第5节中,我们进行总结各种多模态Transformer 模型和应用所共享的共同挑战和设计。(3)讨论了基于Transformer 的MML技术目前的瓶颈、存在的问题和潜在的研究方向。

这篇关于牛津大学发布首篇《Transformer多模态学习》综述论文,23页pdf涵盖310篇文献全面阐述MMT的理论与应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1112946

相关文章

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

Python实现一键PDF转Word(附完整代码及详细步骤)

《Python实现一键PDF转Word(附完整代码及详细步骤)》pdf2docx是一个基于Python的第三方库,专门用于将PDF文件转换为可编辑的Word文档,下面我们就来看看如何通过pdf2doc... 目录引言:为什么需要PDF转Word一、pdf2docx介绍1. pdf2docx 是什么2. by

Python实现pdf电子发票信息提取到excel表格

《Python实现pdf电子发票信息提取到excel表格》这篇文章主要为大家详细介绍了如何使用Python实现pdf电子发票信息提取并保存到excel表格,文中的示例代码讲解详细,感兴趣的小伙伴可以跟... 目录应用场景详细代码步骤总结优化应用场景电子发票信息提取系统主要应用于以下场景:企业财务部门:需

Python Flask 库及应用场景

《PythonFlask库及应用场景》Flask是Python生态中​轻量级且高度灵活的Web开发框架,基于WerkzeugWSGI工具库和Jinja2模板引擎构建,下面给大家介绍PythonFl... 目录一、Flask 库简介二、核心组件与架构三、常用函数与核心操作 ​1. 基础应用搭建​2. 路由与参

Spring Boot中的YML配置列表及应用小结

《SpringBoot中的YML配置列表及应用小结》在SpringBoot中使用YAML进行列表的配置不仅简洁明了,还能提高代码的可读性和可维护性,:本文主要介绍SpringBoot中的YML配... 目录YAML列表的基础语法在Spring Boot中的应用从YAML读取列表列表中的复杂对象其他注意事项总

电脑系统Hosts文件原理和应用分享

《电脑系统Hosts文件原理和应用分享》Hosts是一个没有扩展名的系统文件,当用户在浏览器中输入一个需要登录的网址时,系统会首先自动从Hosts文件中寻找对应的IP地址,一旦找到,系统会立即打开对应... Hosts是一个没有扩展名的系统文件,可以用记事本等工具打开,其作用就是将一些常用的网址域名与其对应

CSS 样式表的四种应用方式及css注释的应用小结

《CSS样式表的四种应用方式及css注释的应用小结》:本文主要介绍了CSS样式表的四种应用方式及css注释的应用小结,本文通过实例代码给大家介绍的非常详细,详细内容请阅读本文,希望能对你有所帮助... 一、外部 css(推荐方式)定义:将 CSS 代码保存为独立的 .css 文件,通过 <link> 标签

Python使用Reflex构建现代Web应用的完全指南

《Python使用Reflex构建现代Web应用的完全指南》这篇文章为大家深入介绍了Reflex框架的设计理念,技术特性,项目结构,核心API,实际开发流程以及与其他框架的对比和部署建议,感兴趣的小伙... 目录什么是 ReFlex?为什么选择 Reflex?安装与环境配置构建你的第一个应用核心概念解析组件

Python对PDF书签进行添加,修改提取和删除操作

《Python对PDF书签进行添加,修改提取和删除操作》PDF书签是PDF文件中的导航工具,通常包含一个标题和一个跳转位置,本教程将详细介绍如何使用Python对PDF文件中的书签进行操作... 目录简介使用工具python 向 PDF 添加书签添加书签添加嵌套书签Python 修改 PDF 书签Pytho

C#通过进程调用外部应用的实现示例

《C#通过进程调用外部应用的实现示例》本文主要介绍了C#通过进程调用外部应用的实现示例,以WINFORM应用程序为例,在C#应用程序中调用PYTHON程序,具有一定的参考价值,感兴趣的可以了解一下... 目录窗口程序类进程信息类 系统设置类 以WINFORM应用程序为例,在C#应用程序中调用python程序