多模态之ViLBERT:双流网络,各自为王

2023-11-06 20:01
文章标签 网络 双流 模态 vilbert

本文主要是介绍多模态之ViLBERT:双流网络,各自为王,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

通篇读完这个论文,需要解决如下问题:

  1. ViLBERT架构是什么样子的?
  2. ViLBERT预训练任务是什么?
  3. ViLBERT实现细节有哪些?

我之前写了两个多模态基础的文章,没看过的同学可以先看看这两个文章:

分别是 在解决多模态任务的时候需要重点解决的6个问题如何把BERT的两种预训练任务扩展到多模态数据中去

1. ViLBERT架构是什么样子的?

首先我们来聊第一个问题:ViLBERT架构是什么样子的?

直接看图:

img

这个图其实很不错,我简单来概述一下,如下:

首先ViLBERT包含两个并行的流,上面的那个是图片流,下面那个是文本流;

每个流是由一些TRM Blocks和 co-attentional TRM layers【Co-TRM】组成;

需要注意的是TRM Blocks 和Co-TRM 可以是多层的;

这里面最主要的部分其实就是这个Co-TRM;

在那个虚线框中,我们可以看到Co-TRM有两个部分,真正的Co-TRM和后连接的TRM;

首先我们要明确,从图片流前半部分【未交互之前】出来的是一个个图片regions的embeddings;

从文本流前半部分出来的是一个个文本tokens的embeddings;【需要注意的是文本这有一个L-K X的符号,其实代表的就是构建多层的TRM,在本文就是一个BERT-Base】;

知道各自流前半部分出来的是什么之后,就到了重头戏上的Co-TRM这个架构,直接来看论文中的图:

img

其实这个结构很简单,就是在做attention的时候,做一些改动;

在上面这个图片流,我的Q矩阵来自图片信息,但是我的K和V矩阵来自文本信息;

在下面这个文本流,我的Q矩阵来自文本信息,但是我的K和V矩阵来自图片信息;

简单说,就是做了一个在文本条件下的图片的attention和在图片条件下的文本的attention;

也就是在文本和图片之间做了一个信息的交互;

这里需要注意的是,在交互之后,各自走自己独立的TRM结构,而并没有拼接在一起走TRM结构;

我自己在之前的多模态落地讲解文章中有谈到,我的baseline架构和这个很类似,只不过,我是做了双方面的attentinon之后,直接拼接接了任务相关的结构;

2. ViLBERT预训练任务是什么?

然后我们再来看ViLBERT预训练任务是什么?

之前文章谈到,多模态的预训练任务从BERT演化而来,可以分为两类任务:重建任务和匹配任务;

那么在ViLBERT也是这两类;

重建任务就是文本重建和图片重建;

匹配任务是是否匹配;

需要注意的是重建任务构建的时候并么有保持另一个模态数据保持完整;匹配任务是H_cls和H_img相乘接了一个MLP做分类;

也是直接来看图:

img

这么看文本和图片的任务是合在一起训练了,其实从模型架构我们可以看到两个流在最后是各自分支输出的,这点需要注意;

3. ViLBERT实现细节有哪些?

实现细节这里其实可说的没有多,主要是ViLBERT本身的预训练和在四个下游任务进行迁移学习;

在预训练的时候,数据使用的是330万个图像-字幕对;

这个很有意思,相当于是一种无监督的语料,但是怎么处理文本和字母不相关的问题,因为并不是每时每刻都是相关的,想一下电视剧的情景;所以这种数据噪声估计很严重,需要清理;

论文使用的数据来自ACL2018论文搞出来的数据,比较干净一点;

由于担心训练时间,ViLBERT中的BERT这个流使用的是bert-base,后来发现bert-large可能会有更好的表现;

使用FasterRCNN,通过卡阈值的方式来提取图像中的置信度比较高的候选框【10-36个】,使用 mean-pooled convolutional feature 作为这个候选区域的特征向量;

其他的:8个TitanX GPUs / batch size of 512 /10 epochs / Adam optimizer / initial learning rates of 1e-4.

下游任务中的几个任务:Visual Question Answering (VQA);Grounding Referring Expressions;Caption-Based Image Retrieval;‘Zero-shot’ Caption-Based Image Retrieval;

做了两个对比实验:

  1. 第一个是使用了单流的bert-videobert;没怎么改变bert的架构;

这个其实对照到文本相似度这边,其实属于交互式模型,所以这种模型存在的一个问题是没有办法很好的缓存单个文本或者单个图片的embedding,这样在做一些检索任务的时候就非常的不方面;

为啥DSSM 架构这么有名,效果是一方面,速度更加的被大家看重;

  1. 第二个实验是相同的 ViLBERT架构,但是并没有在我们的图像-字幕数据集中进行预训练;

这个实验是为了 看一下 架构和预训练数据的作用,从而来证明,架构是有用的,预训练也是有用的;

这篇关于多模态之ViLBERT:双流网络,各自为王的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/358773

相关文章

Linux网络配置之网桥和虚拟网络的配置指南

《Linux网络配置之网桥和虚拟网络的配置指南》这篇文章主要为大家详细介绍了Linux中配置网桥和虚拟网络的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、网桥的配置在linux系统中配置一个新的网桥主要涉及以下几个步骤:1.为yum仓库做准备,安装组件epel-re

python如何下载网络文件到本地指定文件夹

《python如何下载网络文件到本地指定文件夹》这篇文章主要为大家详细介绍了python如何实现下载网络文件到本地指定文件夹,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下...  在python中下载文件到本地指定文件夹可以通过以下步骤实现,使用requests库处理HTTP请求,并结合o

Linux高并发场景下的网络参数调优实战指南

《Linux高并发场景下的网络参数调优实战指南》在高并发网络服务场景中,Linux内核的默认网络参数往往无法满足需求,导致性能瓶颈、连接超时甚至服务崩溃,本文基于真实案例分析,从参数解读、问题诊断到优... 目录一、问题背景:当并发连接遇上性能瓶颈1.1 案例环境1.2 初始参数分析二、深度诊断:连接状态与

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

SpringBoot使用OkHttp完成高效网络请求详解

《SpringBoot使用OkHttp完成高效网络请求详解》OkHttp是一个高效的HTTP客户端,支持同步和异步请求,且具备自动处理cookie、缓存和连接池等高级功能,下面我们来看看SpringB... 目录一、OkHttp 简介二、在 Spring Boot 中集成 OkHttp三、封装 OkHttp

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为