CEASC:基于全局上下文增强的自适应稀疏卷积网络在无人机图像上的快速目标检测

本文主要是介绍CEASC:基于全局上下文增强的自适应稀疏卷积网络在无人机图像上的快速目标检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Adaptive Sparse Convolutional Networks with Global Context Enhancement for
Faster Object Detection on Drone Images

摘要

        提出了一种基于稀疏卷积的探测头优化方法,该方法在精度和效率之间取得了较好的平衡。然而,该算法对微小物体的上下文信息融合不足,且在前景尺度变化时,对遮挡比例的控制不灵活。针对上述问题,提出了一种新的全局上下文增强自适应稀疏卷积网络(CEASC)该算法首先利用全局背景统计量代替稀疏采样特征统计量,构建了背景增强的组归一化(CE-GN)层,然后设计了一种自适应的多层掩膜策略,在不同尺度下生成最优的掩膜比例,以获得更紧凑的前景覆盖,提高了算法的准确性和效率。具体来说,首先开发一个上下文增强稀疏卷积(CESC)来捕获全局信息并增强焦点特征,它由具有上下文增强组规范化(CE-GN)层的残差结构组成。由于CE-GN专门保留了一组整体特征,并将其应用于归一化,因此它补偿了稀疏卷积造成的上下文损失,并稳定了前景区域的分布,从而绕过了准确性的急剧下降。然后,提出了一个自适应多层掩蔽(AMM)计划,它分别估计最佳的掩模比通过最小化精心设计的损失在不同层次的特征金字塔网络(FPN),平衡检测精度和效率。在VisDrone和UAVDT两个主要测试平台上的实验结果表明,CEASC能够显著降低GFLOPs,加快推理过程,并具有较好的性能。

创新点

        1)提出了一种新的基于稀疏卷积的检测头优化方法,即CEASC,以有效的无人机目标检测。

        2)引入了一个上下文增强的稀疏卷积层和一个自适应多层掩蔽方案来优化掩码比,从而在检测精度和效率之间实现最佳平衡。

网络模型

        方法如图2所示,给定一个基本检测器,整个CEASC网络的目标是通过开发上下文增强稀疏卷积(CESC)来优化FPN中不同层的检测头,CESC通过一个轻量级卷积模块以及上下文增强组归一化(CEGN)层将焦点信息与全局上下文相结合。设计了一个自适应多层掩模(AMM)模块,使模型能够自适应地产生具有适当掩模比的掩模,从而在精度和效率上达到更好的平衡。

1.上下文增强稀疏卷积
1.1稀疏卷积

        无人机图像上的大多数现有检测器都使用密集的检测头,在整个特征图上进行卷积。虽然充分探索视觉线索有助于检测微小物体,但密集头部需要更多的计算,这不适用于资源受限的UAV平台。同时,前景区域仅占据无人机获取的帧的一小部分,这表明密集头部在背景上进行了大量计算操作,其中包含的用于对象检测的有用信息少得多。该观察揭示了通过仅在前景区域上计算来加速检测头的潜力。

        稀疏卷积(SC)通过使用稀疏掩模来学习对前景区域进行操作,并证明可以有效加快各种视觉任务的推理阶段。受其启发,构建了基于SC的网络。具体地说,给定来自FPN的第i层的特征映射Xi ,SC采用由共享核Wmask组成的掩码网络。基于Wmask对Xi进行卷积生成软特征Si ,通过使用Gumbel-Softmax技巧将其进一步转化为掩码矩阵Hi ∈ {0,1}B×1×H×W,公式如下:

其中g1,g2 ∈ RB×1×H×W表示随机Gumbel噪声,σ表示sigmoid函数,τ是Gumbel-Softmax中相应的温度参数。

        根据等式(1)在推理期间,只有掩码值为1的区域参与卷积,从而降低了总的计算成本。Hi的稀疏性由掩模比r ∈ [0,1]控制,通常手动设置为大于0.9。由于基本检测器在检测框架中有一个分类头和一个回归头,考虑到它们通常关注不同的区域,为每个头分别引入一个掩码网络。每个探测头采用四个卷积-GN-ReLU层和一个卷积层来进行预测,其中,用SC层取代传统的卷积层。

1.2上下文增强

        上下文线索有利于目标检测然而,SC仅对前景执行卷积,并放弃具有有用信息的背景,这可能会破坏整体准确性,特别是在无人机图像中存在微小对象的情况下。为了解决这个问题,提出了一个轻量级的CESC模块,共同利用焦点信息和全局上下文进行增强,同时提高后续计算的稳定性。如图2所示,对特征图Xi应用逐点卷积,生成全局上下文特征Gi。由于SC只处理Xi中的少数元素,因此经过多轮SC后,GI往往会变得稳定,而不会花费太多额外的计算成本。

        作为SC的重要组成部分,将全局上下文信息Gi嵌入到SparseConvolution-GN-ReLU层中,其将特征映射Xij,掩码Hi和全局特征Gi作为输入,其中j表示第j个SparseConvolution-GN-ReLU层。采用Gi的平均值和标准差进行归一化,而不是像传统SC那样使用激活的元素来计算组归一化的统计数据,旨在补偿缺失的上下文。假设Li,j是在对Xi,j应用SC之后的输出特征图,通过CE-GN如下获得上下文增强的特征Fij

其中mean[·]和std[·]分别表示均值和标准差,w和B是可学习参数。

        为了进一步减轻SC中的信息损失并使训练过程更加稳定,在训练期间除了稀疏卷积之外还额外保持正常的密集卷积,生成在完整输入特征图上卷积的特征图Cij。然后,采用Cij通过优化MSE损失来增强稀疏特征图Fij,如下所示:

其中L是FPN中的层数。

        最终通过将Gi添加到Fij来在激活层之前采用残差结构,即Fij= Fij + Gi,这加强了上下文保持。CESC模块和CE-GN层的完整架构如图2所示。

2.自适应多层掩蔽

        在没有任何额外约束的情况下,稀疏检测器倾向于生成具有大激活比(或小掩模比)的掩模以获得更高的精度,从而增加了总体计算成本。为了解决这个问题,大提出了AMM方案来自适应地控制激活率(或抑制掩模率)。

        具体地,AMM首先基于地面实况标签来估计最优掩模比率。通过利用标签分配技术,对于第i个FPN层,获得地面实况分类结果Ci,其中c表示包括背景的类别数量; hi和wi分别表示特征图的高度和宽度。第i个FPN层中的最佳激活比率Pi估计为

其中Pos(Ci)和Numel(Ci)分别指示属于正(前景)实例的像素的数量和所有像素的数量。

        为了引导网络自适应地生成具有适当掩码比的掩码,采用以下损失

其中,Pos(Hi)/Numel(Hi)表示掩模Hi的活化率。通过使Lamm最小化,Hi被迫遵守与地面真实前景比率Pi相同的激活比率,从而便于生成足够的掩模比率。

        通过添加常规检测损失Ldet,将总体训练损失公式化如下:

其中α、β是平衡Lnorm和Lamm重要性的超参数。

这篇关于CEASC:基于全局上下文增强的自适应稀疏卷积网络在无人机图像上的快速目标检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1121283

相关文章

SpringBoot全局域名替换的实现

《SpringBoot全局域名替换的实现》本文主要介绍了SpringBoot全局域名替换的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录 项目结构⚙️ 配置文件application.yml️ 配置类AppProperties.Ja

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

Python多线程实现大文件快速下载的代码实现

《Python多线程实现大文件快速下载的代码实现》在互联网时代,文件下载是日常操作之一,尤其是大文件,然而,网络条件不稳定或带宽有限时,下载速度会变得很慢,本文将介绍如何使用Python实现多线程下载... 目录引言一、多线程下载原理二、python实现多线程下载代码说明:三、实战案例四、注意事项五、总结引

Python脚本轻松实现检测麦克风功能

《Python脚本轻松实现检测麦克风功能》在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的... 目录轻松检测麦克风功能脚本介绍一、python环境准备二、代码解析三、使用方法四、知识扩展轻松检测麦

C#使用Spire.XLS快速生成多表格Excel文件

《C#使用Spire.XLS快速生成多表格Excel文件》在日常开发中,我们经常需要将业务数据导出为结构清晰的Excel文件,本文将手把手教你使用Spire.XLS这个强大的.NET组件,只需几行C#... 目录一、Spire.XLS核心优势清单1.1 性能碾压:从3秒到0.5秒的质变1.2 批量操作的优雅

Python开发简易网络服务器的示例详解(新手入门)

《Python开发简易网络服务器的示例详解(新手入门)》网络服务器是互联网基础设施的核心组件,它本质上是一个持续运行的程序,负责监听特定端口,本文将使用Python开发一个简单的网络服务器,感兴趣的小... 目录网络服务器基础概念python内置服务器模块1. HTTP服务器模块2. Socket服务器模块

Mybatis-Plus 3.5.12 分页拦截器消失的问题及快速解决方法

《Mybatis-Plus3.5.12分页拦截器消失的问题及快速解决方法》作为Java开发者,我们都爱用Mybatis-Plus简化CRUD操作,尤其是它的分页功能,几行代码就能搞定复杂的分页查询... 目录一、问题场景:分页拦截器突然 “失踪”二、问题根源:依赖拆分惹的祸三、解决办法:添加扩展依赖四、分页

c++日志库log4cplus快速入门小结

《c++日志库log4cplus快速入门小结》文章浏览阅读1.1w次,点赞9次,收藏44次。本文介绍Log4cplus,一种适用于C++的线程安全日志记录API,提供灵活的日志管理和配置控制。文章涵盖... 目录简介日志等级配置文件使用关于初始化使用示例总结参考资料简介log4j 用于Java,log4c

Go语言网络故障诊断与调试技巧

《Go语言网络故障诊断与调试技巧》在分布式系统和微服务架构的浪潮中,网络编程成为系统性能和可靠性的核心支柱,从高并发的API服务到实时通信应用,网络的稳定性直接影响用户体验,本文面向熟悉Go基本语法和... 目录1. 引言2. Go 语言网络编程的优势与特色2.1 简洁高效的标准库2.2 强大的并发模型2.

使用Redis快速实现共享Session登录的详细步骤

《使用Redis快速实现共享Session登录的详细步骤》在Web开发中,Session通常用于存储用户的会话信息,允许用户在多个页面之间保持登录状态,Redis是一个开源的高性能键值数据库,广泛用于... 目录前言实现原理:步骤:使用Redis实现共享Session登录1. 引入Redis依赖2. 配置R