PVT(Pyramid Vision Transformer)算法整理

2023-11-09 17:20

本文主要是介绍PVT(Pyramid Vision Transformer)算法整理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

整体架构

整个“金字塔”架构分为4个stage,每个stage内的基础结构是相似的,即:

  1. Patch Embedding:目的在于将信息分块,降低单张图的图片大小,但会增加数据的深度
  2. Transformer Encoder:目的在于计算图片的attention value,由于深度变大了,计算复杂度会变大,所以在这里作者使用了Special Reduction来减小计算复杂度

具体模块

Patch Embedding

Patch Embedding部分与ViT中对与图片的分块操作是一样的,即:

  1. 将原图切成总数为 p i × p i p_i\times p_i pi×pi的patches

具体操作:
使用卷积操作, k e r n a l _ s i z e = H p i , s t r i d e = H p i \mathrm{kernal\_size}=\frac{H}{p_i},\mathrm{stride}=\frac{H}{p_i} kernal_size=piHstride=piH

  1. 将每个patch内的数据拉平,然后进行LayerNorm,此时每个patch内的数据大小为 H i − 1 W i − 1 p i 2 × C i \frac{H_{i-1}W_{i-1}}{p_i^2}\times C_i pi2Hi1Wi1×Ci

Transformer Encoder

ViT中的Attention计算过程可以用如下公式表示:

Q = W q x + b q K = W k x + b k V = W v x + b v A t t e n t i o n ( Q , K , V ) = S o f t m a x ( Q K T d h e a d ) V Q=W_qx+b_q\quad K=W_kx+b_k\quad V=W_vx+b_v\\ \mathrm{Attention}(Q,K,V)=\mathrm{Softmax}(\frac{QK^T}{\sqrt{d_{head}}})V Q=Wqx+bqK=Wkx+bkV=Wvx+bvAttention(Q,K,V)=Softmax(dhead QKT)V
假设输入( x x x)的大小为 H W × C HW\times C HW×C,则 Q . s h a p e = K . s h a p e = V . s h a p e = H W × C ′ Q.\mathrm{shape}=K.\mathrm{shape}=V.\mathrm{shape}=HW\times C' Q.shape=K.shape=V.shape=HW×C

PVT中的Attention计算过程可以用如下公式表示:

S R A ( Q , K , V ) = C o n c a t ( h e a d 0 , . . . h e a d N i ) W o , ( h e a d j = A t t e n t i o n ( Q W j Q , S R ( K ) W j K , S R ( V ) W j V ) ) S R ( x ) = N o r m ( R e s h a p e ( x , R i ) W S ) A t t e n t i o n ( Q , K , V ) = S o f t m a x ( Q K T d h e a d ) V \mathrm{SRA}(Q,K,V)=\mathrm{Concat}(head_0,...head_{N_i})W^o,\\ (head_j=\mathrm{Attention}(QW_j^Q,\mathrm{SR}(K)W_j^K,\mathrm{SR}(V)W_j^V))\\ \mathrm{SR}(x)=\mathrm{Norm(Reshape}(x,R^i)W^S)\\ \mathrm{Attention}(Q,K,V)=\mathrm{Softmax}(\frac{QK^T}{\sqrt{d_{head}}})V SRA(Q,K,V)=Concat(head0,...headNi)Wo,(headj=Attention(QWjQ,SR(K)WjK,SR(V)WjV))SR(x)=Norm(Reshape(x,Ri)WS)Attention(Q,K,V)=Softmax(dhead QKT)V
假设输入( x x x)的大小为 H W × C HW\times C HW×C,则 Q . s h a p e = H W × C ′ , K . s h a p e = V . s h a p e = H W R i 2 × C ′ Q.\mathrm{shape}=HW\times C',K.\mathrm{shape}=V.\mathrm{shape}=\frac{HW}{R_i^2}\times C' Q.shape=HW×CK.shape=V.shape=Ri2HW×C,可以看出,使用这个方法之后,最终得到的结果的维度不变,但计算Attention的值时,参数的数量减少了很多

代码链接

https://github.com/whai362/PVT

这篇关于PVT(Pyramid Vision Transformer)算法整理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/377500

相关文章

MyBatis的xml中字符串类型判空与非字符串类型判空处理方式(最新整理)

《MyBatis的xml中字符串类型判空与非字符串类型判空处理方式(最新整理)》本文给大家介绍MyBatis的xml中字符串类型判空与非字符串类型判空处理方式,本文给大家介绍的非常详细,对大家的学习或... 目录完整 Hutool 写法版本对比优化为什么status变成Long?为什么 price 没事?怎

Python按照24个实用大方向精选的上千种工具库汇总整理

《Python按照24个实用大方向精选的上千种工具库汇总整理》本文整理了Python生态中近千个库,涵盖数据处理、图像处理、网络开发、Web框架、人工智能、科学计算、GUI工具、测试框架、环境管理等多... 目录1、数据处理文本处理特殊文本处理html/XML 解析文件处理配置文件处理文档相关日志管理日期和

Python38个游戏开发库整理汇总

《Python38个游戏开发库整理汇总》文章介绍了多种Python游戏开发库,涵盖2D/3D游戏开发、多人游戏框架及视觉小说引擎,适合不同需求的开发者入门,强调跨平台支持与易用性,并鼓励读者交流反馈以... 目录PyGameCocos2dPySoyPyOgrepygletPanda3DBlenderFife

Python自动化批量重命名与整理文件系统

《Python自动化批量重命名与整理文件系统》这篇文章主要为大家详细介绍了如何使用Python实现一个强大的文件批量重命名与整理工具,帮助开发者自动化这一繁琐过程,有需要的小伙伴可以了解下... 目录简介环境准备项目功能概述代码详细解析1. 导入必要的库2. 配置参数设置3. 创建日志系统4. 安全文件名处

MySQL 迁移至 Doris 最佳实践方案(最新整理)

《MySQL迁移至Doris最佳实践方案(最新整理)》本文将深入剖析三种经过实践验证的MySQL迁移至Doris的最佳方案,涵盖全量迁移、增量同步、混合迁移以及基于CDC(ChangeData... 目录一、China编程JDBC Catalog 联邦查询方案(适合跨库实时查询)1. 方案概述2. 环境要求3.

SpringSecurity整合redission序列化问题小结(最新整理)

《SpringSecurity整合redission序列化问题小结(最新整理)》文章详解SpringSecurity整合Redisson时的序列化问题,指出需排除官方Jackson依赖,通过自定义反序... 目录1. 前言2. Redission配置2.1 RedissonProperties2.2 Red

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Javaee多线程之进程和线程之间的区别和联系(最新整理)

《Javaee多线程之进程和线程之间的区别和联系(最新整理)》进程是资源分配单位,线程是调度执行单位,共享资源更高效,创建线程五种方式:继承Thread、Runnable接口、匿名类、lambda,r... 目录进程和线程进程线程进程和线程的区别创建线程的五种写法继承Thread,重写run实现Runnab

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语