RT-DETR 详解之 Uncertainty-minimal Query Selection

2024-06-12 05:20

本文主要是介绍RT-DETR 详解之 Uncertainty-minimal Query Selection,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

在上一章博客中博主已经完成查询去噪向量构造部分的讲解(DeNoise)在本篇博客中,我们将进行Uncertainty-minimal Query Selection创新点的讲解。

Uncertainty-minimal Query Selection是RT-DETR提出的第二个创新点,其作用是在训练期间约束检测器对高 IOU 的特征产生高分类分数,对低 IOU 的特征产生低分类分数。从而使得模型根据分类分数选择的 Top-K 特征对应的预测框同时具有髙分类分数和高 IOU 分数。

如下图,这是RT-DETR所作的一个分析,其中蓝色代表使用查询选择后的结果,可以看到其随着IOU分数变高,其分类分数也较高,而绿色代表原方法,可以看到IOU分数高的分类分数并不高。

在这里插入图片描述

这部分其实对应的是输入到Decoder中的数据处理部分,即位于rt_decoder.py中的_get_decoder_input方法中

代码分析

进入_get_decoder_input方法后,首先进行的是构造Anchor,对应的是_generate_anchors方法

构造Anchor

_generate_anchors方法的输入参数为各个特征图的维度大小spatial_shapes

其代码如下,该方法原理和YOLOv1的思想很类似,每个像素点产生一个Anchor,如第一层特征图中有100x100Anchor,第二层特征图中有50x50Anchor

在这里插入图片描述

生成的grid_xgrid_y 以及 grid_xy 的值

在这里插入图片描述
anchors.append(torch.concat([grid_xy, wh], -1).reshape(-1, h * w, 4))将宽高和中心点坐标拼接在一起,最终获得三层特征图内的 Anchor

在这里插入图片描述

最终,会根据我们设置的一个阈值来选择出一部分Anchor

在这里插入图片描述
在这里插入图片描述

这里可以认为是生成Anchor先验,RT-DETR认为目标更多的集中在中心区域,即中心区域的特征更容易产生高IOU,而到了最后一个特征图,由于语义特征非常丰富,所以近似会认为所有特征都很有用,故而全部选择了。

在这里插入图片描述

Topk查询向量选择

继续进行Decoder输入数据的构造,通过一系列方法,在根据类别选择Top-k输入Decoder的特征向量的过程中,就可以选出相对IOU分数也较高的查询向量了。具体操作如下:

首先,将Encoder输出的特征图进行进一步处理:

output_memory = self.enc_output(memory)

memorytorch.Size([4, 13125, 256])
output_memorytorch.Size([4, 13125, 256])

RT-DETR对分类头与预测框头进行了解耦,首先将该特征图(output_memory)输入分类头,获取分类结果(这里是初筛Encoder的结果,为下一步选择Topk特征做准备)

enc_outputs_class = self.enc_score_head(output_memory)

在这里插入图片描述
随后将特征图(output_memory)输入回归头,并于先前构造的anchor相结合:

enc_outputs_coord_unact = self.enc_bbox_head(output_memory) + anchors

回归头的构造如下,其输出维度为4,对应 (x y w h)

ModuleList((0-1): 2 x Linear(in_features=256, out_features=256, bias=True)(2): Linear(in_features=256, out_features=4, bias=True)
)

在这里插入图片描述
在这里插入图片描述

最终,将其进行Topk选择,选择的数量为300(num_queries)

 _, topk_ind = torch.topk(enc_outputs_class.max(-1).values, self.num_queries, dim=1)

选择出的top_ind即选中的特征图的索引。

在这里插入图片描述

最后,按照先前的分类结果(top_ind)从回归结果中选出Topk个结果。

关于torch的gather函数的用法可以参考这篇文章:

torch.gather用法

我们可以看到此时的inputenc_outputs_coord_unact ,其维度为1,代表纵向,按列取整,此时索引为topk_ind展平后的结果,已知topk_ind为(4,300),博主举了一个简单案例来展示这个过程:

在这里插入图片描述

上述部分的完整代码如下:

在这里插入图片描述

最终,获得筛选后的enc_topk_bboxes的特征维度为torch.Size([4, 300, 4]),通过上述过程,在进行特征向量选择的过程中,由于anchor在构造时具有倾向性,即多位于一些中心点区域,因此其anchor具有高IOU,在最后选择时,再选择这里面分类分数高的特征,从而选择高分类分数与高IOU分数的特征。

我的理解

至此,我们来最终分析一下其原理:其相较于DETR类其他方法初始随机设置查询向量(如DAB-DETR的box query一般初始为0,可认为是先验 anchor),这里RT-DETR则在Anchor初始化时给定了的假设,即目标大多位于中心区域,认为这部分的特征能够产生较高IOU的查询向量,在完成anchor初始化后,并将该anchor与Encoder得到的anchor相加,得到Encoder最终输出的anchor(enc_output_coord_unact),注意,每轮训练或者推理过程中的产生的先验anchor是固定的,即每次先验条件是相同的,但它会与Encoder得到的anchor结合后,即给定训练倾向,最终也就导致Encoder逐步产生一些具有高IOU的特征。

最终输出结果

最终将Encoder得到的特征图生成的查询向量与查询降噪生成的查询向量结合起来,输入Decoder进行下一步的操作。

在这里插入图片描述

最终将选择出的300与查询去噪构造的198结合起来,得到(4,498,256)的特征。

最终得到的返回值如下:

 return target, reference_points_unact.detach(), enc_topk_bboxes, enc_topk_logits

这个target就是用于输入Decoder的特征。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

至此,完成了Uncertainty-minimal Query Selection过程。

这篇关于RT-DETR 详解之 Uncertainty-minimal Query Selection的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1053304

相关文章

MySQL数据库双机热备的配置方法详解

《MySQL数据库双机热备的配置方法详解》在企业级应用中,数据库的高可用性和数据的安全性是至关重要的,MySQL作为最流行的开源关系型数据库管理系统之一,提供了多种方式来实现高可用性,其中双机热备(M... 目录1. 环境准备1.1 安装mysql1.2 配置MySQL1.2.1 主服务器配置1.2.2 从

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本,并kill2.1 进程查看2.2 遇到的

MyBatis常用XML语法详解

《MyBatis常用XML语法详解》文章介绍了MyBatis常用XML语法,包括结果映射、查询语句、插入语句、更新语句、删除语句、动态SQL标签以及ehcache.xml文件的使用,感兴趣的朋友跟随小... 目录1、定义结果映射2、查询语句3、插入语句4、更新语句5、删除语句6、动态 SQL 标签7、ehc

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

k8s按需创建PV和使用PVC详解

《k8s按需创建PV和使用PVC详解》Kubernetes中,PV和PVC用于管理持久存储,StorageClass实现动态PV分配,PVC声明存储需求并绑定PV,通过kubectl验证状态,注意回收... 目录1.按需创建 PV(使用 StorageClass)创建 StorageClass2.创建 PV

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

Redis 基本数据类型和使用详解

《Redis基本数据类型和使用详解》String是Redis最基本的数据类型,一个键对应一个值,它的功能十分强大,可以存储字符串、整数、浮点数等多种数据格式,本文给大家介绍Redis基本数据类型和... 目录一、Redis 入门介绍二、Redis 的五大基本数据类型2.1 String 类型2.2 Hash

Java中的.close()举例详解

《Java中的.close()举例详解》.close()方法只适用于通过window.open()打开的弹出窗口,对于浏览器的主窗口,如果没有得到用户允许是不能关闭的,:本文主要介绍Java中的.... 目录当你遇到以下三种情况时,一定要记得使用 .close():用法作用举例如何判断代码中的 input