深度学习_图像分割_PANet论文详解

本文主要是介绍深度学习_图像分割_PANet论文详解，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

PANet论链接

PANet介绍

这篇文章提出的Path Aggregation Network (PANet)整体上可以看做是在Mask RCNN上做多处改进，充分利用了特征融合：

引入bottom-up path augmentation结构，充分利用网络浅特征进行分割。
引入adaptive feature pooling使得提取到的ROI特征更加丰富。
引入fully-connected fusion，通过融合一个前背景二分类支路的输出得到精确的分割结果。

上图是关于PANet的示意图，主要包含FPN、bottom-up path augmentation、adaptive feature pooling、fully-connected fusion四个部分。

FPN主要是通过融合高底层特征提升目标检测的效果，尤其可以提高小尺寸目标的检测效果。

Bottom-up Path Augmentation的引入主要是考虑网络浅层特征信息对于实例分割非常重要，这个也非常容易理解，毕竟浅层特征多是边缘形状等特征，而实例分割又是像素级别的分类。那么为什么bottom-up path augmentation能保留更多的浅层特征呢？作者在上图中用红绿两个箭头来解释了。红色虚线箭头表示在FPN算法中，因为要走自底向上的过程，浅层的特征传递到顶层要经过几十甚至一百多个网络层（在FPN中，对应上图中那4个蓝色矩形块从下到上分别是ResNet的res2、res3、res4和res5层的输出，层数大概在几十到一百多左右），显然经过这么多层的传递，浅层特征信息丢失会比较厉害。绿色虚线箭头表示作者添加一个bottom-up path augmentation，本身这个结构不到10层，这样浅层特征经过底下原来FPN的lateral connection连接到P2再从P2沿着bottom-up path augmentation传递到顶层，经过的层数就不到10层，能较好地保留浅层特征信息。关于bottom-up path augmentation的具体设计参考后面的Figure2，最后融合得到的特征层是N2、N3、N4、N5，其中N2和P2相同，这些特征层用于后续的预测框分类、回归和mask生成。

Adaptive Feature Pooling主要做的还是特征融合。我们知道在Faster RCNN系列的目标检测或分割算法中，RPN网络得到的ROI需要经过ROI Pooling或ROI Align提取ROI特征，这一步操作中每个ROI所基于的特征都是单层特征（FPN也是如此），比如ResNet网络中常用的res5的输出。而adaptive feature pooling则是将单层特征也换成多层特征，也就是说每个ROI需要和多层特征（文中是4层）做ROI Align的操作，然后将得到的不同层的ROI特征融合在一起，这样每个ROI特征就融合了多层特征。

Fully-connected Fusion是针对原有的分割支路（FCN）引入一个前背景二分类的全连接支路，通过融合这两条支路的输出得到更加精确的分割结果。

下图是bottom-up path augmentation的示意图：

在这里插入图片描述

这是比较常规的特征融合操作，比如 $N_{i}$ 经过尺寸为 $3\times 3$ ，步长为2的卷积层，特征图尺寸缩减为原来的一半，然后和 $P_{i + 1}$ 做element-wise add操作，得到的结果再经过尺寸为 $3\times 3$ ，步长为1的卷积层得到 $N_{i + 1}$ ，特征图尺寸不变。

下面这张图是adaptive feature pooling的示意图：

在这里插入图片描述

RPN网络得到的每个ROI都要分别和N2、N3、N4、N5层特征做ROIAlign操作，这样每个ROI就提取到4个不同的特征图，然后将4个不同的特征图融合在一起就得到最终的特征，后续的分类和回归都是基于最终的特征进行。

之所以引入adaptive feature pooling其实是基于FPN中提取ROI特征的思考，虽然FPN网络基于多层特征做预测，但是每个ROI提取特征时依然是基于单层特征，然而单层特征就足够了吗？于是作者做了下图这个实验，下图中有4条曲线，对应FPN网络中基于4层特征做预测，每一层都会经过RPN网络得到ROI，所以这4条曲线就对应4个ROI集合。横坐标则表示每个ROI集合所提取的不同层特征的占比。比如蓝色曲线代表level1，应该是尺度比较小的ROI集合，这一类型的ROI所提取的特征仅有30%是来自于level1的特征，剩下的70%都来自其他level的特征，leve2、leve3、leve4曲线也是同理，这说明原来RPN网络的做法（level x的ROI所提取的特征100%来自于leve x的特征，x可取1、2、3、4）并不是最佳的。因此就有了特征融合的思考，也就是每个ROI提取不同层的特征并做融合，这对于提升模型效果显然是有利无害。

在这里插入图片描述
下图是fully-connected fusion的示意图：

在这里插入图片描述

主要是在原来的mask支路（Figure4上面那条支路，也就是传统的FCN结构）上增加了Figure4下面那条支路做融合。增加的这条支路包含2个33的卷积层（其中第二个为了降低计算量还将通道缩减为原来的一半），然后接一个全连接层，再经过reshape操作得到维度和上面支路相同的前背景mask，也就是说下面这条支路做的是前景和背景的二分类，因此输出维度类似文中说到的28281。上面这条支路，也就是传统的FCN结构将输出针对每个类别的二分类mask，因此输出的通道就是类别的数量，输出维度类似2828*K，K表示类别数。最终，这两条支路的输出mask做融合得到最终的结果。因此可以看出这里增加了关于每个像素点的前背景分类支路，通过融合这部分特征得到更加精确的分割结果。