CEASC:基于全局上下文增强的自适应稀疏卷积网络在无人机图像上的快速目标检测

本文主要是介绍CEASC:基于全局上下文增强的自适应稀疏卷积网络在无人机图像上的快速目标检测，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Adaptive Sparse Convolutional Networks with Global Context Enhancement for

Faster Object Detection on Drone Images

摘要

提出了一种基于稀疏卷积的探测头优化方法，该方法在精度和效率之间取得了较好的平衡。然而，该算法对微小物体的上下文信息融合不足，且在前景尺度变化时，对遮挡比例的控制不灵活。针对上述问题，提出了一种新的全局上下文增强自适应稀疏卷积网络（CEASC）。该算法首先利用全局背景统计量代替稀疏采样特征统计量，构建了背景增强的组归一化（CE-GN）层，然后设计了一种自适应的多层掩膜策略，在不同尺度下生成最优的掩膜比例，以获得更紧凑的前景覆盖，提高了算法的准确性和效率。具体来说，首先开发一个上下文增强稀疏卷积（CESC）来捕获全局信息并增强焦点特征，它由具有上下文增强组规范化（CE-GN）层的残差结构组成。由于CE-GN专门保留了一组整体特征，并将其应用于归一化，因此它补偿了稀疏卷积造成的上下文损失，并稳定了前景区域的分布，从而绕过了准确性的急剧下降。然后，提出了一个自适应多层掩蔽（AMM）计划，它分别估计最佳的掩模比通过最小化精心设计的损失在不同层次的特征金字塔网络（FPN），平衡检测精度和效率。在VisDrone和UAVDT两个主要测试平台上的实验结果表明，CEASC能够显著降低GFLOPs，加快推理过程，并具有较好的性能。

创新点

1)提出了一种新的基于稀疏卷积的检测头优化方法，即CEASC，以有效的无人机目标检测。

2)引入了一个上下文增强的稀疏卷积层和一个自适应多层掩蔽方案来优化掩码比，从而在检测精度和效率之间实现最佳平衡。

网络模型

方法如图2所示，给定一个基本检测器，整个CEASC网络的目标是通过开发上下文增强稀疏卷积（CESC）来优化FPN中不同层的检测头，CESC通过一个轻量级卷积模块以及上下文增强组归一化（CEGN）层将焦点信息与全局上下文相结合。设计了一个自适应多层掩模（AMM）模块，使模型能够自适应地产生具有适当掩模比的掩模，从而在精度和效率上达到更好的平衡。

1.上下文增强稀疏卷积

1.1稀疏卷积

无人机图像上的大多数现有检测器都使用密集的检测头，在整个特征图上进行卷积。虽然充分探索视觉线索有助于检测微小物体，但密集头部需要更多的计算，这不适用于资源受限的UAV平台。同时，前景区域仅占据无人机获取的帧的一小部分，这表明密集头部在背景上进行了大量计算操作，其中包含的用于对象检测的有用信息少得多。该观察揭示了通过仅在前景区域上计算来加速检测头的潜力。

稀疏卷积（SC）通过使用稀疏掩模来学习对前景区域进行操作，并证明可以有效加快各种视觉任务的推理阶段。受其启发，构建了基于SC的网络。具体地说，给定来自FPN的第i层的特征映射Xi ，SC采用由共享核Wmask组成的掩码网络。基于Wmask对Xi进行卷积生成软特征Si ，通过使用Gumbel-Softmax技巧将其进一步转化为掩码矩阵Hi ∈ {0，1}B×1×H×W，公式如下：

其中g1，g2 ∈ RB×1×H×W表示随机Gumbel噪声，σ表示sigmoid函数，τ是Gumbel-Softmax中相应的温度参数。

根据等式(1)在推理期间，只有掩码值为1的区域参与卷积，从而降低了总的计算成本。Hi的稀疏性由掩模比r ∈ [0，1]控制，通常手动设置为大于0.9。由于基本检测器在检测框架中有一个分类头和一个回归头，考虑到它们通常关注不同的区域，为每个头分别引入一个掩码网络。每个探测头采用四个卷积-GN-ReLU层和一个卷积层来进行预测，其中，用SC层取代传统的卷积层。

1.2上下文增强

上下文线索有利于目标检测；然而，SC仅对前景执行卷积，并放弃具有有用信息的背景，这可能会破坏整体准确性，特别是在无人机图像中存在微小对象的情况下。为了解决这个问题，提出了一个轻量级的CESC模块，共同利用焦点信息和全局上下文进行增强，同时提高后续计算的稳定性。如图2所示，对特征图Xi应用逐点卷积，生成全局上下文特征Gi。由于SC只处理Xi中的少数元素，因此经过多轮SC后，GI往往会变得稳定，而不会花费太多额外的计算成本。

作为SC的重要组成部分，将全局上下文信息Gi嵌入到SparseConvolution-GN-ReLU层中，其将特征映射Xij，掩码Hi和全局特征Gi作为输入，其中j表示第j个SparseConvolution-GN-ReLU层。采用Gi的平均值和标准差进行归一化，而不是像传统SC那样使用激活的元素来计算组归一化的统计数据，旨在补偿缺失的上下文。假设Li，j是在对Xi，j应用SC之后的输出特征图，通过CE-GN如下获得上下文增强的特征Fij