《基础模型时代的图像分割》研究综述

2024-09-02 22:52

本文主要是介绍《基础模型时代的图像分割》研究综述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图像分割的目标:将像素划分为不同的组别

现代图像分割方法:①适配基础模型(例如CLIP、Stable Diffusion、DINO)用于图像分割②开发专门的分割基础模型(如SAM)

一、本综述的两大基本研究方向

通用图像分割(即语义分割、实例分割、全景分割)

可提示的图像分割(即交互式分割、参考分割、少样本分割):指定图像要分割的内容

本综述的贡献:

对基于著名基础模型的最近图像分割方法进行的全面探索,如CLIP [71]、Stable Diffusion [43]、DINO [56]/DINOv2 [57]、SAM [49]和LLMs/MLLMs [72]。

2.1语义分割

2.1.1基于CLIP

CLIP微调:

CATSeg [153]引入了基于成本聚合的框架,即使在完全微调后也能保持CLIP的零样本能力。OTSeg [154]通过利用多个文本提示的集成并引入多提示sinkhorn注意力来改善多模态对齐。ZegCLIP [155]、LDVC [156]和ZegOT [157]使用参数高效的提示调优技术来转移CLIP。

SemiVL 采用部分调优策略,仅调优自注意力层的参数。

知识蒸馏(KD):用于转移基础模型的能力

2.1.2基于DM

这里对DM有一个初步的了解

DM指的是Diffusion Model,扩散模型,是一种生成模型,通过逐步去除数据中的随机噪声,从而逐步构建出有意义的数据样本。

DM模型从生成任务到语义分割领域的应用也越来越受到关注。

2.1.3基于DINO

DINO模型是基于自监督学习的视觉模型,旨在从大规模数据集中学习丰富的视觉特征。

2.1.4基于SAM

SAM模型相对比较熟悉,前段时间做过的VOS竞赛,用的是SAM2模型,给出掩码在视频中分割

CLIP在语义理解方面表现出色,而SAM和DINO则擅长空间理解。有许多改进的模型,充分利用了二者的特点,进行了结合。

2.2实例分割

2.2.1 基于CLIP

CLIP在实现开放词汇实例分割中发挥了重要作用

2.2.2 基于DM

DMs在实例分割中通过促进生成具有准确标签的大规模训练数据集发挥了关键作用。

2.2.3 基于DINO

无监督实例分割。它们通常采用两阶段的发现和学习过程:通过递归应用归一化切割[100]等方法从DINO特征中发现多个对象掩码,然后利用这些掩码作为伪标签训练实例分割模型。

2.2.4 基于FMs

通过将实例的边界框作为提示输入,可以轻松地将SAM直接转换为实例分割模型,这些边界框可以通过对象检测器获取,如Faster R-CNN ,Grounding DINO。Grounding DINO模型在我们做Omnilabel竞赛的时候有接触过。

2.3全景分割

二、基于基础模型的交互式分割

对于这个交互式分割,我相对来说比较了解SAM模型,我们也对刚开源的SAM2模型进行过推理,也真正地有过交互,就是可以添加自己想要分割的目标物体,但是目前我只尝试过一个或者两个目标物体,,三个及以上还没有试过

这篇关于《基础模型时代的图像分割》研究综述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1131303

相关文章

SpringBoot基础框架详解

《SpringBoot基础框架详解》SpringBoot开发目的是为了简化Spring应用的创建、运行、调试和部署等,使用SpringBoot可以不用或者只需要很少的Spring配置就可以让企业项目快... 目录SpringBoot基础 – 框架介绍1.SpringBoot介绍1.1 概述1.2 核心功能2

Spring Boot集成SLF4j从基础到高级实践(最新推荐)

《SpringBoot集成SLF4j从基础到高级实践(最新推荐)》SLF4j(SimpleLoggingFacadeforJava)是一个日志门面(Facade),不是具体的日志实现,这篇文章主要介... 目录一、日志框架概述与SLF4j简介1.1 为什么需要日志框架1.2 主流日志框架对比1.3 SLF4

Spring Boot集成Logback终极指南之从基础到高级配置实战指南

《SpringBoot集成Logback终极指南之从基础到高级配置实战指南》Logback是一个可靠、通用且快速的Java日志框架,作为Log4j的继承者,由Log4j创始人设计,:本文主要介绍... 目录一、Logback简介与Spring Boot集成基础1.1 Logback是什么?1.2 Sprin

Python+wxPython构建图像编辑器

《Python+wxPython构建图像编辑器》图像编辑应用是学习GUI编程和图像处理的绝佳项目,本教程中,我们将使用wxPython,一个跨平台的PythonGUI工具包,构建一个简单的... 目录引言环境设置创建主窗口加载和显示图像实现绘制工具矩形绘制箭头绘制文字绘制临时绘制处理缩放和旋转缩放旋转保存编

python+OpenCV反投影图像的实现示例详解

《python+OpenCV反投影图像的实现示例详解》:本文主要介绍python+OpenCV反投影图像的实现示例详解,本文通过实例代码图文并茂的形式给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前言二、什么是反投影图像三、反投影图像的概念四、反向投影的工作原理一、利用反向投影backproj

MySQL复合查询从基础到多表关联与高级技巧全解析

《MySQL复合查询从基础到多表关联与高级技巧全解析》本文主要讲解了在MySQL中的复合查询,下面是关于本文章所需要数据的建表语句,感兴趣的朋友跟随小编一起看看吧... 目录前言:1.基本查询回顾:1.1.查询工资高于500或岗位为MANAGER的雇员,同时还要满足他们的姓名首字母为大写的J1.2.按照部门

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

Android Mainline基础简介

《AndroidMainline基础简介》AndroidMainline是通过模块化更新Android核心组件的框架,可能提高安全性,本文给大家介绍AndroidMainline基础简介,感兴趣的朋... 目录关键要点什么是 android Mainline?Android Mainline 的工作原理关键

Python如何将大TXT文件分割成4KB小文件

《Python如何将大TXT文件分割成4KB小文件》处理大文本文件是程序员经常遇到的挑战,特别是当我们需要把一个几百MB甚至几个GB的TXT文件分割成小块时,下面我们来聊聊如何用Python自动完成这... 目录为什么需要分割TXT文件基础版:按行分割进阶版:精确控制文件大小完美解决方案:支持UTF-8编码