文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows

本文主要是介绍文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是对《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》一文的浅显翻译与理解,如有侵权即刻删除。

更多相关文章,请移步:
文献阅读总结:计算机视觉

文章目录

  • Title
  • 总结
    • 1 整体框架
    • 2 移动窗口

Title

《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》

——CVPR2021

Author: 刘泽

总结

该文是CVPR的best paper,作者胡瀚对其进行了介绍:https://www.bilibili.com/video/BV1eb4y1k7fj?from=search&seid=4785679647044800045&spm_id_from=333.337.0.0

Transformer在NLP领域的成果吸引了CV领域研究者的注意,期待为NLP和CV建立一个通用的模型架构。本文提出了Swin Transformer算法,将transformer结构引入到了CV领域中,并加入了先验知识如层次性hierarchy、局部性locality和平移不变性translational invariance等。此外,还构造了移动窗口shifted window来代替常用的滑动窗口,相比使用卷积架构的方法,效果更佳。

1 整体框架

文章将transformer结构代替了传统的卷积网络结构,将给定的图像切分为多个区块,在每个区块patch中使用self-attention方法提取特征。具体而言,每个区块会被初始化为44的大小,每个像素点有用RGB值进行表示,因此每个区块的大小为443,这些区块可以用经典方法表示成为维度大小为C的向量。而后,通过叠加多层Swin Transformer blocks,来不断压缩和提取信息。每次将22范围的区块信息压缩成一个区块,同时生成2C长度的向量。其结构如下所示:

在这里插入图片描述

右图是对单层transformer结构模型的拆解,W-MSA即基于window的multi-head self attention,其公式如下所示:

在这里插入图片描述

2 移动窗口

注意到,文章对每个区块进行了自注意力的信息提取,但没有考虑多个区块间的联系。因此,文章提出了移动窗口shifted window来替换传统的滑动窗口sliding window,建模区块与区块间的联系。滑动窗口往往按照规定的步长在数据间进行滑动提取信息,但这样的方法往往计算较为复杂。进而,文章通过利用图像不断循环滑动,来实现了窗口的移动。

在这里插入图片描述

如图所示,上图最左侧区块大小不同的切分图,正是由第二个图的变换得到的,将右下方ABC三部分提取出来,拼接到左上方,就得到了最左侧的切分图,其实际效果如下:

在这里插入图片描述

此外,文章还提出了模型的多个变体,在此不再赘述。

这篇关于文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/CSDNTianJi/article/details/120958819
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/377483

相关文章

Python+Tkinter实现Windows Hosts文件编辑管理工具

《Python+Tkinter实现WindowsHosts文件编辑管理工具》在日常开发和网络调试或科学上网场景中,Hosts文件修改是每个开发者都绕不开的必修课,本文将完整解析一个基于Python... 目录一、前言:为什么我们需要专业的Hosts管理工具二、工具核心功能全景图2.1 基础功能模块2.2 进

Python+PyQt5开发一个Windows电脑启动项管理神器

《Python+PyQt5开发一个Windows电脑启动项管理神器》:本文主要介绍如何使用PyQt5开发一款颜值与功能并存的Windows启动项管理工具,不仅能查看/删除现有启动项,还能智能添加新... 目录开篇:为什么我们需要启动项管理工具功能全景图核心技术解析1. Windows注册表操作2. 启动文件

使用Python创建一个功能完整的Windows风格计算器程序

《使用Python创建一个功能完整的Windows风格计算器程序》:本文主要介绍如何使用Python和Tkinter创建一个功能完整的Windows风格计算器程序,包括基本运算、高级科学计算(如三... 目录python实现Windows系统计算器程序(含高级功能)1. 使用Tkinter实现基础计算器2.

Windows系统宽带限制如何解除?

《Windows系统宽带限制如何解除?》有不少用户反映电脑网速慢得情况,可能是宽带速度被限制的原因,只需解除限制即可,具体该如何操作呢?本文就跟大家一起来看看Windows系统解除网络限制的操作方法吧... 有不少用户反映电脑网速慢得情况,可能是宽带速度被限制的原因,只需解除限制即可,具体该如何操作呢?本文

windows和Linux使用命令行计算文件的MD5值

《windows和Linux使用命令行计算文件的MD5值》在Windows和Linux系统中,您可以使用命令行(终端或命令提示符)来计算文件的MD5值,文章介绍了在Windows和Linux/macO... 目录在Windows上:在linux或MACOS上:总结在Windows上:可以使用certuti

Windows 上如果忘记了 MySQL 密码 重置密码的两种方法

《Windows上如果忘记了MySQL密码重置密码的两种方法》:本文主要介绍Windows上如果忘记了MySQL密码重置密码的两种方法,本文通过两种方法结合实例代码给大家介绍的非常详细,感... 目录方法 1:以跳过权限验证模式启动 mysql 并重置密码方法 2:使用 my.ini 文件的临时配置在 Wi

Windows Docker端口占用错误及解决方案总结

《WindowsDocker端口占用错误及解决方案总结》在Windows环境下使用Docker容器时,端口占用错误是开发和运维中常见且棘手的问题,本文将深入剖析该问题的成因,介绍如何通过查看端口分配... 目录引言Windows docker 端口占用错误及解决方案汇总端口冲突形成原因解析诊断当前端口情况解

Python Transformer 库安装配置及使用方法

《PythonTransformer库安装配置及使用方法》HuggingFaceTransformers是自然语言处理(NLP)领域最流行的开源库之一,支持基于Transformer架构的预训练模... 目录python 中的 Transformer 库及使用方法一、库的概述二、安装与配置三、基础使用:Pi

Redis在windows环境下如何启动

《Redis在windows环境下如何启动》:本文主要介绍Redis在windows环境下如何启动的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Redis在Windows环境下启动1.在redis的安装目录下2.输入·redis-server.exe

Windows Server服务器上配置FileZilla后,FTP连接不上?

《WindowsServer服务器上配置FileZilla后,FTP连接不上?》WindowsServer服务器上配置FileZilla后,FTP连接错误和操作超时的问题,应该如何解决?首先,通过... 目录在Windohttp://www.chinasem.cnws防火墙开启的情况下,遇到的错误如下:无法与