Deit:知识蒸馏与vit的结合 学习笔记(附代码)

2024-01-13 23:12

本文主要是介绍Deit:知识蒸馏与vit的结合 学习笔记(附代码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 论文地址:https://arxiv.org/abs/2012.12877

代码地址:GitHub - facebookresearch/deit: Official DeiT repository

1.是什么?

DeiT(Data-efficient Image Transformer)是一种用于图像分类任务的神经网络模型,它基于Transformer架构。这个模型的主要目标是在参数较少的情况下实现高效的图像分类。相比于传统的卷积神经网络(CNN),DeiT采用了Transformer的注意力机制,使其能够更好地捕捉图像中的全局关系。
以下是DeiT模型的一些关键特点和组成部分:

  1. 1.Transformer 架构: DeiT采用了Transformer的架构,这是一种自注意力机制的模型。这种架构在自然语言处理任务中取得了显著的成功,DeiT将其成功地应用于图像分类领域。
  2. 2.小模型参数: 为了提高数据效率,DeiT设计为具有相对较少的参数。这使得模型在训练和推理时需要更少的计算资源。
  3. 3.Knowledge Distillation: DeiT使用知识蒸馏(Knowledge Distillation)的方法进行训练。这意味着它通过从一个大型预训练模型中传递知识来训练,而不是从头开始训练。这有助于在资源受限的情况下实现更好的性能。
  4. 4.Patch Embedding: 与传统的卷积层不同,DeiT使用了补丁嵌入(Patch Embedding)来将图像分割成小块,然后对这些块进行变换。
  5. 5.Positional Embeddings: 由于Transformer不涉及卷积层,它需要一种处理输入序列的方式。在DeiT中,位置嵌入(Positional Embeddings)用于为模型提供输入中元素的相对位置信息。

总体而言,DeiT是一个旨在通过Transformer的优势实现图像分类的轻量级模型,适用于数据受限的情况。通过知识蒸馏和小模型参数,它在参数较少的情况下达到了令人满意的性能。

2.为什么?

Transformer的输入是一个序列(Sequence),ViT 所采用的思路是把图像分块(patches),然后把每一块视为一个向量(vector),所有的向量并在一起就成为了一个序列(Sequence),ViT 使用的数据集包括了一个巨大的包含了 300 million images的 JFT-300,这个数据集是私有的,即外部研究者无法复现实验。而且在ViT的实验中作者明确地提到:

意思是当不使用 JFT-300 大数据集时,效果不如CNN模型。也就反映出Transformer结构若想取得理想的性能和泛化能力就需要这样大的数据集。DeiT 作者通过所提出的蒸馏的训练方案,只在 Imagenet 上进行训练,就产生了一个有竞争力的无卷积 Transformer。

3.怎么样?

在 DeiT 模型中,首先需要一个强力的图像分类模型作为teacher model。然后,引入了一个 Distillation Token,然后在 self-attention layers 中跟 class token,patch token 在 Transformer 结构中不断学习。Class token的目标是跟真实的label一致,而Distillation Token是要跟teacher model预测的label一致。蒸馏过程如下图所示。

3.1知识蒸馏

知识蒸馏(Knowledge Distillation)是一种模型训练的技术,旨在通过传递一个大型教师模型的知识来训练一个小型学生模型。这个方法的目标是使得学生模型能够获得与教师模型相似的性能,同时减少学生模型的复杂性和计算成本。
以下是知识蒸馏的关键思想和步骤:

  1. 1.教师模型: 首先,有一个在任务上表现良好的大型教师模型。这个模型通常拥有更多的参数和计算能力,以便更好地捕捉任务的复杂性和结构。
  2. 2.软目标(Soft Targets): 在传统的监督学习中,模型通常以硬标签(one-hot编码的标签)作为目标进行训练。而在知识蒸馏中,使用了软目标,这是由教师模型输出的概率分布。这样的软目标包含了关于样本的更丰富信息,使得学生模型可以学到更多的任务相关知识。
  3. 3.温度参数: 软目标的概率分布可以通过温度参数进行调节。较高的温度使概率分布更平滑,有助于学生模型更好地学到教师模型的知识。
  4. 4.学生模型: 有了教师模型和软目标,接下来就是训练学生模型。学生模型通常是一个比教师模型简化的小型模型,可以在资源受限的环境中更轻松地进行推理。
  5. 5.蒸馏损失: 为了引导学生模型学习教师模型的知识,引入了蒸馏损失。这个损失函数用于比较学生模型的输出概率分布和教师模型的输出概率分布,促使学生模型模仿教师模型的行为。

知识蒸馏的优势在于,通过传递教师模型的知识,可以在小型模型上实现接近教师模型性能的效果。这对于移动设备、嵌入式系统或其他计算资源受限的环境中的部署非常有用。

具体方法:

第一步是训练Net-T;第二步是在高温 T 下,蒸馏 Net-T 的知识到 Net-S。

训练 Net-T 的过程很简单,而高温蒸馏过程的目标函数由distill loss(对应soft target)和student loss(对应hard target)加权得到:

Deit 中使用 Conv-Based 架构作为教师网络,以 soft 的方式将归纳偏置传递给学生模型,将局部性的假设通过蒸馏方式引入 Transformer 中,取得了不错的效果。

3.2Distillation Token

Distillation Token 和 ViT 中的 class token 一起加入 Transformer 中,和class token 一样通过 self-attention 与其它的 embedding 一起计算,并且在最后一层之后由网络输出。

而 Distillation Token 对应的这个输出的目标函数就是蒸馏损失。Distillation Token 允许模型从教师网络的输出中学习,就像在常规的蒸馏中一样,同时也作为一种对class token的补充。

3.3代码实现

class DistilledVisionTransformer(VisionTransformer):def __init__(self, *args, **kwargs):super().__init__(*args, **kwargs)self.dist_token = nn.Parameter(torch.zeros(1, 1, self.embed_dim))num_patches = self.patch_embed.num_patchesself.pos_embed = nn.Parameter(torch.zeros(1, num_patches + 2, self.embed_dim))self.head_dist = nn.Linear(self.embed_dim, self.num_classes) if self.num_classes > 0 else nn.Identity()trunc_normal_(self.dist_token, std=.02)trunc_normal_(self.pos_embed, std=.02)self.head_dist.apply(self._init_weights)def forward_features(self, x):# taken from https://github.com/rwightman/pytorch-image-models/blob/master/timm/models/vision_transformer.py# with slight modifications to add the dist_tokenB = x.shape[0]x = self.patch_embed(x)cls_tokens = self.cls_token.expand(B, -1, -1)  # stole cls_tokens impl from Phil Wang, thanksdist_token = self.dist_token.expand(B, -1, -1)x = torch.cat((cls_tokens, dist_token, x), dim=1)x = x + self.pos_embedx = self.pos_drop(x)for blk in self.blocks:x = blk(x)x = self.norm(x)return x[:, 0], x[:, 1]def forward(self, x):x, x_dist = self.forward_features(x)x = self.head(x)x_dist = self.head_dist(x_dist)if self.training:return x, x_distelse:# during inference, return the average of both classifier predictionsreturn (x + x_dist) / 2

参考:ViT、Deit这类视觉transformer是如何处理变长序列输入的?

DeiT:使用Attention蒸馏Transformer

这篇关于Deit:知识蒸馏与vit的结合 学习笔记(附代码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/603121

相关文章

SpringBoot中四种AOP实战应用场景及代码实现

《SpringBoot中四种AOP实战应用场景及代码实现》面向切面编程(AOP)是Spring框架的核心功能之一,它通过预编译和运行期动态代理实现程序功能的统一维护,在SpringBoot应用中,AO... 目录引言场景一:日志记录与性能监控业务需求实现方案使用示例扩展:MDC实现请求跟踪场景二:权限控制与

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

利用Python调试串口的示例代码

《利用Python调试串口的示例代码》在嵌入式开发、物联网设备调试过程中,串口通信是最基础的调试手段本文将带你用Python+ttkbootstrap打造一款高颜值、多功能的串口调试助手,需要的可以了... 目录概述:为什么需要专业的串口调试工具项目架构设计1.1 技术栈选型1.2 关键类说明1.3 线程模

Python Transformers库(NLP处理库)案例代码讲解

《PythonTransformers库(NLP处理库)案例代码讲解》本文介绍transformers库的全面讲解,包含基础知识、高级用法、案例代码及学习路径,内容经过组织,适合不同阶段的学习者,对... 目录一、基础知识1. Transformers 库简介2. 安装与环境配置3. 快速上手示例二、核心模

一文详解Java异常处理你都了解哪些知识

《一文详解Java异常处理你都了解哪些知识》:本文主要介绍Java异常处理的相关资料,包括异常的分类、捕获和处理异常的语法、常见的异常类型以及自定义异常的实现,文中通过代码介绍的非常详细,需要的朋... 目录前言一、什么是异常二、异常的分类2.1 受检异常2.2 非受检异常三、异常处理的语法3.1 try-

Java的栈与队列实现代码解析

《Java的栈与队列实现代码解析》栈是常见的线性数据结构,栈的特点是以先进后出的形式,后进先出,先进后出,分为栈底和栈顶,栈应用于内存的分配,表达式求值,存储临时的数据和方法的调用等,本文给大家介绍J... 目录栈的概念(Stack)栈的实现代码队列(Queue)模拟实现队列(双链表实现)循环队列(循环数组

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

使用Java将DOCX文档解析为Markdown文档的代码实现

《使用Java将DOCX文档解析为Markdown文档的代码实现》在现代文档处理中,Markdown(MD)因其简洁的语法和良好的可读性,逐渐成为开发者、技术写作者和内容创作者的首选格式,然而,许多文... 目录引言1. 工具和库介绍2. 安装依赖库3. 使用Apache POI解析DOCX文档4. 将解析

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符(formatspecifier)快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

使用Python实现全能手机虚拟键盘的示例代码

《使用Python实现全能手机虚拟键盘的示例代码》在数字化办公时代,你是否遇到过这样的场景:会议室投影电脑突然键盘失灵、躺在沙发上想远程控制书房电脑、或者需要给长辈远程协助操作?今天我要分享的Pyth... 目录一、项目概述:不止于键盘的远程控制方案1.1 创新价值1.2 技术栈全景二、需求实现步骤一、需求