Vision Transformer (ViT)浅析

2024-04-18 16:12
文章标签 transformer 浅析 vision vit

本文主要是介绍Vision Transformer (ViT)浅析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Vision Transformer (ViT)

概述

为了将Transformer引入视觉任务,Google团队开发出了Vision Transformer (ViT),其中ViT模型以及变种在图像分类任务上一骑绝尘

chart

ViT的结构

model_scheme_00

ViT首先将图像( R H × W × C \mathbb{R}^{H\times W\times C} RH×W×C)划分为多个Patch( P × P P\times P P×P),Patch的维度为 P 2 × C P^2\times C P2×C。可得图片划分的Patch数目为 N = H W P 2 N=\frac{HW}{P^2} N=P2HW。例如输入图片大小为224x224,将图片分为固定大小的patch,patch大小为16x16,则每张图像会生成224x224/16x16=196个patch,即输入序列长度为196,每个patch维度16x16x3=768

然后使每一个Patch展平后进行线性投影为固定长度的向量。在线性投影中直接使用一个卷积核大小为16x16,步距为16,卷积核个数为768的卷积来实现。通过卷积[224, 224, 3] -> [14, 14, 768],然后把H以及W两个维度展平即可[14, 14, 768] -> [196, 768],此时正好变成了一个二维矩阵,正是Transformer想要的。并添加一个特殊的token[cls]与token拼接在一起以便表示为图像分类任务,此时token为的维度是197x768。到目前为止,已经通过patch embedding将一个视觉任务就转化为序列问题。

同时ViT没有采用原始Transformer的位置编码方式,而是直接设置为可学习的位置编码(Positional Encoding)。

这个过程可以公式化为:
z 0 = [ x c l a s s ; x p 1 E ; x p 2 E ; . . . ; x p N E ] + E p o s \begin{aligned} \mathbf{z}_0&=\begin{bmatrix}\boldsymbol{x}_{class};\boldsymbol{x}_p^1\boldsymbol{E};\boldsymbol{x}_p^2\boldsymbol{E};...;\boldsymbol{x}_p^N\boldsymbol{E}\end{bmatrix}+\boldsymbol{E}_{pos}& \\ \end{aligned} z0=[xclass;xp1E;xp2E;...;xpNE]+Epos
表示图块编码和位置编码过程,其中 E E E是线性变换矩阵且 E ∈ E\in E R ( P 2 × C ) × D \mathbb{R}^{(P^2\times C)\times D} R(P2×C)×D, E p o s ∈ R ( N + 1 ) × D E_{pos}\in\mathbb{R}^{(N+1)\times D} EposR(N+1)×D, x c l a s s x_{class} xclass为人为增加的一个可学习的分类向量。

然后在transformer的多头注意力机制中多头自注意力时,先将输入映射到q,k,v,如果只有一个头,qkv的维度都是197x768,如果有12个头(768/12=64),则qkv的维度是197x64,一共有12组qkv,最后再将12组qkv的输出拼接起来,输出维度是197x768,然后在过一层LN,维度依然是197x768
z l ′ = M S A ( L N ( z l − 1 ) ) + z l − 1 , l = 1 , 2 , . . L \mathbf{z}_l'=MSA\Big(LN(\mathbf{z}_{l-1})\Big)+\mathbf{z}_{l-1},\quad l=1,2,..L zl=MSA(LN(zl1))+zl1,l=1,2,..L
公式表示Transformer 编码器中的多头自注意力 (Multi-head Selfattention)、残差连接与层归一化 (Add &Norm) 过程,重复 L次。

紧接着使用MLP将维度放大再缩小回去
z l = M L P ( L N ( z l ′ ) ) + z l ′ , l = 1 , 2 , . . L \mathbf{z}_l=MLP\Big(LN(\mathbf{z}_l')\Big)+\mathbf{z}_l', l=1,2,..L zl=MLP(LN(zl))+zl,l=1,2,..L
公式表示Transformer编码器中前馈神经网络(Feed Forward Network)、残差连接与层归一化 (Add &Norm) 过程,重复 L 次。

最后使用层归一化处理
y = L N ( z L 0 ) \boldsymbol{y}=LN(\mathbf{z}_L^0) y=LN(zL0)
一个block之后维度依然和输入相同,都是197x768,因此可以堆叠多个block。

这篇关于Vision Transformer (ViT)浅析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/915253

相关文章

浅析Java如何保护敏感数据

《浅析Java如何保护敏感数据》在当今数字化时代,数据安全成为了软件开发中至关重要的课题,本文将深入探讨Java安全领域,聚焦于敏感数据保护的策略与实践,感兴趣的小伙伴可以了解下... 目录一、Java 安全的重要性二、敏感数据加密技术(一)对称加密(二)非对称加密三、敏感数据的访问控制(一)基于角色的访问

浅析如何使用xstream实现javaBean与xml互转

《浅析如何使用xstream实现javaBean与xml互转》XStream是一个用于将Java对象与XML之间进行转换的库,它非常简单易用,下面将详细介绍如何使用XStream实现JavaBean与... 目录1. 引入依赖2. 定义 JavaBean3. JavaBean 转 XML4. XML 转 J

浅析Java中如何优雅地处理null值

《浅析Java中如何优雅地处理null值》这篇文章主要为大家详细介绍了如何结合Lambda表达式和Optional,让Java更优雅地处理null值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录场景 1:不为 null 则执行场景 2:不为 null 则返回,为 null 则返回特定值或抛出异常场景

Python Transformer 库安装配置及使用方法

《PythonTransformer库安装配置及使用方法》HuggingFaceTransformers是自然语言处理(NLP)领域最流行的开源库之一,支持基于Transformer架构的预训练模... 目录python 中的 Transformer 库及使用方法一、库的概述二、安装与配置三、基础使用:Pi

浅析CSS 中z - index属性的作用及在什么情况下会失效

《浅析CSS中z-index属性的作用及在什么情况下会失效》z-index属性用于控制元素的堆叠顺序,值越大,元素越显示在上层,它需要元素具有定位属性(如relative、absolute、fi... 目录1. z-index 属性的作用2. z-index 失效的情况2.1 元素没有定位属性2.2 元素处

浅析Python中的绝对导入与相对导入

《浅析Python中的绝对导入与相对导入》这篇文章主要为大家详细介绍了Python中的绝对导入与相对导入的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1 Imports快速介绍2 import语句的语法2.1 基本使用2.2 导入声明的样式3 绝对import和相对i

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

浅析Rust多线程中如何安全的使用变量

《浅析Rust多线程中如何安全的使用变量》这篇文章主要为大家详细介绍了Rust如何在线程的闭包中安全的使用变量,包括共享变量和修改变量,文中的示例代码讲解详细,有需要的小伙伴可以参考下... 目录1. 向线程传递变量2. 多线程共享变量引用3. 多线程中修改变量4. 总结在Rust语言中,一个既引人入胜又可

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

(入门篇)JavaScript 网页设计案例浅析-简单的交互式图片轮播

网页设计已经成为了每个前端开发者的必备技能,而 JavaScript 作为前端三大基础之一,更是为网页赋予了互动性和动态效果。本篇文章将通过一个简单的 JavaScript 案例,带你了解网页设计中的一些常见技巧和技术原理。今天就说一说一个常见的图片轮播效果。相信大家在各类电商网站、个人博客或者展示页面中,都看到过这种轮播图。它的核心功能是展示多张图片,并且用户可以通过点击按钮,左右切换图片。