PointRend的原理与代码解读

本文主要是介绍PointRend的原理与代码解读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

PointRend的提出是为了解决实例分割精度不高的问题，当然也可以应用到语义分割上。PointRend是如何解决分割结果精细度不高的问题呢？下面回顾一下语义分割领域最经典的FCN模型。

FCN语义分割思想:对原始图像经过不断的卷积和池化，得到高语义低分辨率特征，然后进行分类，分类后直接上采样（线性插值类算法）到与图像大小一致的结果，这样必然会导致分割结果很粗糙，尤其是边界部分误差很大。

（代码层面上实现，有一种是原始图像经过卷积池化后，上采样到原始图像大小后再进行像素级的分类预测）

后面大部分的语义分割模型都是基于FCN框架衍生，并在最后上采样部分做了修改，如UNet，deeplabV3+，PSPNet分类预测后上采样的倍数都不一样。

PointRend核心思想:语义分割经过多次池化降采样后，直接预测分类结果，而不是上采样到跟原图像同样尺寸。在粗糙的分割结果中选择分割精度不高的点，然后在这些点上结合粗糙和精细的特征训练MLP模型，对这些点进行重新预测，在训练阶段用重新预测的结果替换原来预测的粗糙结果进行loss计算。推理阶段重新预测的结果替换原来预测的粗糙结果。

训练阶段：

以deeplabv3+为例，输入影像经过特征提取backbone（如RestNet）后，选取layer2和layer4层特征，其中layer4层经过deeplabv3+的ASPP后，直接预测分类结果，称为corase分类结果。layer2称为精细特征fine。然后在corase分类结果中选择分类结果不是非常确定的点（数目为输入影像高度的16分之一），然后根据这些不确定点的坐标分别在corase分类结果特征和layer2特征上采集相应的特征，最后把特征cat后送入mlp进行训练，得到新的预测结果，叫rend。

损失：分为2个，一个是corase分类结果直接上采样后与gt对比得到的seg loss；另一个是rend预测结果与根据不确定点坐标在gt上采样得到的结果进行计算得到的points loss。

ASPP

推理阶段：

以deeplabv3+为例，输入影像经过特征提取backbone（如RestNet）后，选取layer2和layer4层特征，其中layer4层经过deeplabv3+的ASPP后，直接预测分类结果，称为corase分类结果。layer2称为精细特征fine。然后对corase分类结果进行2倍上采样，再在上面进行点采样（文章8096个points）；接着再在layer2层采样，然后把2种采样特征cat起来，放入mlp进行预测，预测结果代替2倍上采样后的corase分类结果；

一直迭代下去，直到操作到原始图像尺寸大小为止。

注意点：训练和推理的不确定点的采样策略不一样

代码理解：

函数def point_sample(input, point_coords, **kwargs)调用了F. grid_sample函数进行采样。

def grid_sample(
    input: Tensor,
    grid: Tensor,
    mode: str = "bilinear",
    padding_mode: str = "zeros",
    align_corners: Optional[bool] = None,
)

官方说明：

Given an input and a flow-field grid, computes the output using input values and pixel locations from grid.

个人理解：

简单来说就是，提供一个input的Tensor以及一个对应的flow-field网格(比如光流，体素流等)，然后根据grid中每个位置提供的坐标信息(这里指input中pixel的坐标)，将input中对应位置的像素值填充到grid指定的位置，得到最终的输出。