Mask Free VIS笔记(CVPR2023 不需要mask标注的实例分割)

2023-10-24 18:20

本文主要是介绍Mask Free VIS笔记(CVPR2023 不需要mask标注的实例分割),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

paper: Mask-Free Video Instance Segmentation
github

一般模型学instance segmentation都是要有mask标注的,
不过mask标注既耗时又枯燥,所以paper中仅用目标框的标注来实现实例分割

主要针对视频的实例分割
之前也有box-supervised实例分割,不过是针对图像的,用在视频中精度不是很高,
作者分析视频的特点是图像是连续的,那就是说同一目标区域在连续的帧中应该属于一个mask label.

理论是时间连续性,一个视频是由多个图片组成的连续的画面,目标的变化也是渐变的。
t+1时刻的帧 与 t时刻对应的区域,像素如果属于同一目标或者背景,那么就应该有相同的mask.
这种找连续画面的对应区域,流行的是用光流法。

不过光流法面临2个问题:
1.不稳定,在有遮挡(找不到),没有明显的纹理(未定义),或者是只有一个边缘(模棱两可)时。
2. SOTA光流法用了深度网络,计算量内存量很大。

paper中定义了temporal KNN-patch loss(TK-loss)
简要介绍一下TK-loss,对于每一个目标patch, 在相邻帧找到matching score最高的前K个匹配。
对K个匹配都计算loss。

和光流法的区别是,光流法是1对1匹配,而TK-loss是1对K匹配。
K可以是0,比如遮挡的情况,也可以是K>=2, 比如天空,地面这种纹理不丰富的情况。
当K>=2时,可能多个patch都属于同一目标或者背景。
此方法计算量不大,而且没有需要学习的参数

计算TK-loss有4个步骤,如下图

在这里插入图片描述

步骤1
候选patch。
一个N * N的patch, 假设它的中心点坐标为p=(x, y), X p t X_{p}^t Xpt表示第 t 帧以p为中心点的N * N patch.
现要找到 t ^ \hat{t} t^ 帧与 X p t X_{p}^t Xpt对应的patch(中心点) 在这里插入图片描述
中心点的位置可在以p为中心,半径R内的区域选取(有点像模板匹配中的local search),
加速措施的所有target image同时做这个窗口搜索。

步骤2
K个匹配。
匹配肯定要计算距离,paper中用的是L2距离,
在这里插入图片描述
选取距离最小的K个匹配。
这K个匹配里面可能还有距离不够小的,这时用一个阈值再过滤一次,把距离>=阈值D的过滤掉。
剩下的就是要求的在这里插入图片描述

步骤3
一致性loss。
当匹配的patch不属于一个mask时,就会带来损失。
M p t M_{p}^t Mpt为预测的二值mask值(0,1), 位置p, 第 t 帧。
如果(p,t) 与它的对应patch 在这里插入图片描述不一致,就会有loss.
在这里插入图片描述
其中
在这里插入图片描述
可以看出,在匹配点的mask值都是0或都是1时,log里面是1,整体的loss是0,也就是说匹配点一致时不会带来损失。

步骤4
Cyclic Tube连接
tube是指包含了一个时间序列的帧数的管道,设有T帧。
每次要计算一个tube里面所有帧的loss. 用循环(cyclic)的方式。
在这里插入图片描述
这里一个时间通道用5帧,shuffle过。
蓝色表示两两帧之间都计算loss。
红色是cyclic连接,最后一帧和第一帧计算loss, 其他的计算相邻帧的loss.
在这里插入图片描述

训练

以往的实例分割训练都需要mask的标注,paper中不用mask标注,只用box 标注。
那么就不能像计算mask loss那样用到预测mask和gt mask.
作者用了BoxInst中的两个损失函数来替代mask loss.
box映射损失 L p r o j L_{proj} Lproj和相邻像素的损失 L p a i r L_{pair} Lpair.

其中映射损失为
在这里插入图片描述
用的是dice loss, 因为作者发现cross-entropy会导致大的object损失比小的object要大。
这里计算loss时忽略标签。

相邻像素的损失 L p a i r L_{pair} Lpair主要依据是认为同一帧颜色相近的相邻像素应该属于同一物体。

在这里插入图片描述
不过一张图像上那么多点,公式上看pi是属于目标框内的点,不过pj怎么选呢,这里没说。
BoxInst中指出是周围的8个点(要间隔一个点)。

在这里插入图片描述
BoxInst中loss就是简单地把2者结合起来:
在这里插入图片描述
而paper中作者加了一个权重,得到空间loss:
在这里插入图片描述
还有一个时间上的loss, 就是前面提到的TK-loss. 把空间loss和时间loss结合起来得到最终的损失函数:

在这里插入图片描述
回忆一下TK-loss L t e m p L_{temp} Ltemp,

取T帧的时间通道,计算相邻两帧的loss, 最后一帧和第一帧计算loss.
在这里插入图片描述
loss如下:
在这里插入图片描述
遍历一帧图像内所有点,设其中一点为p,找半径R范围内的点作为匹配点的候补,以每个点为中心求N * N patch的L2距离。
找到前K个距离最小的候补点,去掉距离<D的候补点,剩下的就是匹配点。
然后计算匹配点的mask是否一致。
在这里插入图片描述

一帧所有的点算完后,按cyclic的顺序计算一个时间通道内所有帧的loss叠加.

L t e m p L_{temp} Ltemp的算法流程如下:
在这里插入图片描述

总结

把实例分割方法中的mask loss替换成paper中的 L s e g L_{seg} Lseg,就能实现只有box标注下的video实例分割。

所以,认为本文其实是改进了BoxInst损失函数,考虑video图片连续性的特点,在BoxInst的基础上加上了时间损失 L t e m p L_{temp} Ltemp
paper中的时间损失 L t e m p L_{temp} Ltemp是针对video场景的 ,如果单纯是图片的实例分割,图片没有连续性,就不适用。

实验数据参照paper

这篇关于Mask Free VIS笔记(CVPR2023 不需要mask标注的实例分割)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/276940

相关文章

Python开发文字版随机事件游戏的项目实例

《Python开发文字版随机事件游戏的项目实例》随机事件游戏是一种通过生成不可预测的事件来增强游戏体验的类型,在这篇博文中,我们将使用Python开发一款文字版随机事件游戏,通过这个项目,读者不仅能够... 目录项目概述2.1 游戏概念2.2 游戏特色2.3 目标玩家群体技术选择与环境准备3.1 开发环境3

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Vue3组件中getCurrentInstance()获取App实例,但是返回null的解决方案

《Vue3组件中getCurrentInstance()获取App实例,但是返回null的解决方案》:本文主要介绍Vue3组件中getCurrentInstance()获取App实例,但是返回nu... 目录vue3组件中getCurrentInstajavascriptnce()获取App实例,但是返回n

SQL表间关联查询实例详解

《SQL表间关联查询实例详解》本文主要讲解SQL语句中常用的表间关联查询方式,包括:左连接(leftjoin)、右连接(rightjoin)、全连接(fulljoin)、内连接(innerjoin)、... 目录简介样例准备左外连接右外连接全外连接内连接交叉连接自然连接简介本文主要讲解SQL语句中常用的表

Python如何将大TXT文件分割成4KB小文件

《Python如何将大TXT文件分割成4KB小文件》处理大文本文件是程序员经常遇到的挑战,特别是当我们需要把一个几百MB甚至几个GB的TXT文件分割成小块时,下面我们来聊聊如何用Python自动完成这... 目录为什么需要分割TXT文件基础版:按行分割进阶版:精确控制文件大小完美解决方案:支持UTF-8编码

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

springboot security验证码的登录实例

《springbootsecurity验证码的登录实例》:本文主要介绍springbootsecurity验证码的登录实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录前言代码示例引入依赖定义验证码生成器定义获取验证码及认证接口测试获取验证码登录总结前言在spring

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤