RCG:何恺明新作,无条件图像生成新SOTA

2024-03-14 17:10

本文主要是介绍RCG:何恺明新作,无条件图像生成新SOTA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

丰色 发自 凹非寺量子位 | 公众号 QbitAI

大佬何恺明还未正式入职MIT,但和MIT的第一篇合作研究已经出来了:

他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。

这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA

5a253ff2f8412b3f667f55f2b9b6762b.png

它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。

0749d8ca61b6924e3d9f41dd4827a00e.png

这样的它不仅显著提高了无条件图像生成的水平,还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说:

有条件和无条件生成任务之间长期存在的性能差距,终于在这一刻被弥补了。

那么,它究竟是如何做到的呢?

类似自监督学习的自条件生成

首先,所谓无条件生成,就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种方式比较难以训练,所以一直和条件生成有很大性能差距——就像无监督学习比不过监督学习一样。

但就像自监督学习的出现,扭转了这一局面一样。

在无条件图像生成领域,也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到图像分布,这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上

它有望超越条件图像生成,并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展(这也是为什么条件生成图像发展得这么好,我们还要重视无条件生成)。

现在,基于这个自条件生成概念,何恺明团队首先开发了一个表示扩散模型RDM

它主要用于生成低维自监督图像表示,方法是通过自监督图像编码器从图像中截取:

81101fc763b8e9cd474fc792f447ada4.png

它的核心架构如下:

首先是输入层,它负责将表征投射到隐藏维度C,接着是N个全连接块,最后是一个输出层,负责把隐藏层的潜在特征重新投射(转换)到原始表征维度。

其中每一层都包含一个LayerNorm层、一个SiLU层以及一个线性层。

af5ed1f3a30d456c70734bf63ca7ea90.png

这样的RDM具有两个优点:

一是多样性强,二是计算开销小。

接着,利用RDM,团队就提出了今天的主角:表示条件图像生成架构RCG。

它是一个简单的自条件生成框架,由三个组件组成:

一个是SSL图像编码器,用于将图像分布转换为紧凑的表示分布。

一个是RDM,用于对该分布进行建模和采样。

最后是一个像素生成器MAGE,用于根据表示来处理图像像。

MAGE的工作方式主要是向token化的图像中添加随机掩码,并要求网络以从同一图像中提取的表示为条件来重建丢失的token。

7f4420c5829c683c9c1ffc7e76c3469c.png

最终,测试表明,这个自条件生成框架虽结构简单但效果非凡:

在ImageNet 256×256上,RCG实现了3.56的FID和186.9的IS(Inception Score)得分。

相比之下,在它之前最厉害的无条件生成方法FID分数为7.04,IS得分为123.5。

a70e09c5acd84e5605eb56185b624021.png

以及,相比条件生成,RCG也丝毫不逊色,可以达到相当甚至超过该领域基准模型的水平。

最后,在无分类器引导的情况下,RCG的成绩还能进一步提高到3.31(FID)和253.4(IS)。

团队表示:

这些结果表明,自条件图像生成模型拥有巨大潜力,可能预示这一领域新时代的到来。

团队介绍

本文一共三位作者:

2de4f90e48854d48cdf45502f84c1cf8.png

一作是MIT博士生黎天鸿,本科毕业于清华姚班,研究方向为跨模态集成传感技术。

他的主页很有意思,还专门放了一个菜谱合集——做研究和做饭是他最热爱的两件事。

bf9fff66f4e9f6408e10355cff67175f.png

另一位作者是MIT电气工程与计算机科学系(EECS)教授、MIT无线网络和移动计算中心主任Dina Katabi,她是今年斯隆奖的获得者,并已当选美国国家科学院院士。

5ec7865db112d70e123134d686819b6c.png

最后,通讯作者为何恺明,他将在明年正式回归学界、离开Meta加入MIT电气工程和计算机科学系,与Dina Katabi成为同事。

80cbcee15ec7d6c76c839a08b99d7ccc.png

论文地址:
https://arxiv.org/abs/2312.03701

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

66320f2f86b44a3c60cd7bbcc56b8284.png 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!

这篇关于RCG:何恺明新作,无条件图像生成新SOTA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/809112

相关文章

Django HTTPResponse响应体中返回openpyxl生成的文件过程

《DjangoHTTPResponse响应体中返回openpyxl生成的文件过程》Django返回文件流时需通过Content-Disposition头指定编码后的文件名,使用openpyxl的sa... 目录Django返回文件流时使用指定文件名Django HTTPResponse响应体中返回openp

基于Python开发一个图像水印批量添加工具

《基于Python开发一个图像水印批量添加工具》在当今数字化内容爆炸式增长的时代,图像版权保护已成为创作者和企业的核心需求,本方案将详细介绍一个基于PythonPIL库的工业级图像水印解决方案,有需要... 目录一、系统架构设计1.1 整体处理流程1.2 类结构设计(扩展版本)二、核心算法深入解析2.1 自

python生成随机唯一id的几种实现方法

《python生成随机唯一id的几种实现方法》在Python中生成随机唯一ID有多种方法,根据不同的需求场景可以选择最适合的方案,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习... 目录方法 1:使用 UUID 模块(推荐)方法 2:使用 Secrets 模块(安全敏感场景)方法

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

python如何生成指定文件大小

《python如何生成指定文件大小》:本文主要介绍python如何生成指定文件大小的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python生成指定文件大小方法一(速度最快)方法二(中等速度)方法三(生成可读文本文件–较慢)方法四(使用内存映射高效生成

Python中OpenCV与Matplotlib的图像操作入门指南

《Python中OpenCV与Matplotlib的图像操作入门指南》:本文主要介绍Python中OpenCV与Matplotlib的图像操作指南,本文通过实例代码给大家介绍的非常详细,对大家的学... 目录一、环境准备二、图像的基本操作1. 图像读取、显示与保存 使用OpenCV操作2. 像素级操作3.

C/C++的OpenCV 进行图像梯度提取的几种实现

《C/C++的OpenCV进行图像梯度提取的几种实现》本文主要介绍了C/C++的OpenCV进行图像梯度提取的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录预www.chinasem.cn备知识1. 图像加载与预处理2. Sobel 算子计算 X 和 Y

c/c++的opencv图像金字塔缩放实现

《c/c++的opencv图像金字塔缩放实现》本文主要介绍了c/c++的opencv图像金字塔缩放实现,通过对原始图像进行连续的下采样或上采样操作,生成一系列不同分辨率的图像,具有一定的参考价值,感兴... 目录图像金字塔简介图像下采样 (cv::pyrDown)图像上采样 (cv::pyrUp)C++ O

Maven项目中集成数据库文档生成工具的操作步骤

《Maven项目中集成数据库文档生成工具的操作步骤》在Maven项目中,可以通过集成数据库文档生成工具来自动生成数据库文档,本文为大家整理了使用screw-maven-plugin(推荐)的完... 目录1. 添加插件配置到 pom.XML2. 配置数据库信息3. 执行生成命令4. 高级配置选项5. 注意事

MybatisX快速生成增删改查的方法示例

《MybatisX快速生成增删改查的方法示例》MybatisX是基于IDEA的MyBatis/MyBatis-Plus开发插件,本文主要介绍了MybatisX快速生成增删改查的方法示例,文中通过示例代... 目录1 安装2 基本功能2.1 XML跳转2.2 代码生成2.2.1 生成.xml中的sql语句头2