stable diffusion(LDM)--图片生成模型

2023-10-14 12:20

本文主要是介绍stable diffusion(LDM)--图片生成模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 简介

本文根据2022年4月的《High-Resolution Image Synthesis with Latent Diffusion Models 》翻译总结的。论文地址https://arxiv.org/pdf/2112.10752.pdf。源码地址:GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models。

以前的扩散模型(diffusion models (DMs) )基于像素级别的,其需要上百个GPU day 进行训练。我们的方法latent diffusion models (LDMs) 在减少计算复杂度和保留细节、提升保真度中接近了最佳。

我们的方法latent diffusion models (LDMs)是两阶段模型(two-stage)。先对图片进行压缩,将图片压缩为隐变量表示(latent),减少计算复杂度,然后输入扩散模型。

如下图所示,我们进行的感知(perceptual)图片压缩不会丢失太多语义信息,但减少了计算量。

2 相关工作

图片生成模型

  • GAN模型的结果是被限制在比较的数据集,因为它的对抗学习过程不是很容易扩展模型复杂度和多模态分布。GAN虽然可以生成高分辨率的图片,但很难优化而较难捕捉完整的数据分布。
  • Variational autoencoders (VAE) 和 flow-based的模型可以高效的合成高分辨率图片,但其效果不如GAN模型。
  • autoregressive models (ARM)在密集(density)估计上有很强的表现,但计算要求高的体系结构和顺序采样过程,故只能生成低分辨率图像。因为图片的像素级别的表示包含着几乎不可感知、高频的细节, maximum-likelihood 训练花费大量的精力来对这些细节建模,导致了很长的训练时间。为了扩展到高分辨率,一些两阶段(two-stage)方法使用ARM来构建压缩的图片隐变量表示,而不是原始像素级别的表示。
  • 扩散模型是属于基于可能性的( likelihood-based )模型。基于可能性的方法强调好的密集(density)估计,这使得其表现良好。

两阶段(two-stage)图片生成

VQ-VAEs在一个离散化的空间使用自回归模型(ARM)学习图片的先验。

我们的方法latent diffusion models (LDMs)也是两阶段模型。

3 方法

我们模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。

3.1 感知(perceptual)图片压缩

主要讲上图模型的左半部分(红色)。

为了避免任意的高可变的隐空间,我们实验了两种正则。第一种是KL-reg,施加了一个轻微的KL惩罚到学习到的隐变量,类似于VAE。另一种是VQ-reg,在解码器里使用了向量量化层。

这个编码器/解码器,我们可以只训练一次,适用于不同的DM模型训练。

3.2 Latent Diffusion Models

主要讲上图模型的中间部分(绿色)。

  • 一般扩散模型的目标函数如下,可以参考DDPM:DDPM--Denoising Diffusion Probabilistic Models_AI强仔的博客-CSDN博客:

  • 采用隐变量表示的扩散模型目标函数,如下:​

3.3 调节机制/cross-attention

我们通过在DM模型的UNET网络中引入cross-attention,实现灵活的图片生成控制。对不同输入模态,可以有效学习基于注意力的模型。

最终目标函数变成如下形式:

4 实验

4.1感知压缩权衡

编码器下采样因子,我们取f ∈ {1, 2, 4, 8, 16, 32} ,即LDM-f表示不同的模型。其中LDM-1表示没有压缩,等同于原来基于像素的DM。

从下图,可以看出来,LDM-4和LDM-8合成高质量图片效果较好。

4.2 图片生成

如下图,LDM模型效果很好。

LDM的参数也较少,1.45B(14.5亿参数)。

4.3条件生成

如下图,我们可以根据左上角的空间布局草稿图,生成高分辨率的大图。

下图根据文本生成图片,可以看到效果还不错。

4.4 高分辨率生成

我们可以根据低分辨率图片生成高分辨率图片,如下面中间部分。

4.5图像修复

可以将图片中的一部分恢复。下图是展示了抠图的效果。

这篇关于stable diffusion(LDM)--图片生成模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/zephyr_wang/article/details/130270026
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/210462

相关文章

c/c++的opencv实现图片膨胀

《c/c++的opencv实现图片膨胀》图像膨胀是形态学操作,通过结构元素扩张亮区填充孔洞、连接断开部分、加粗物体,OpenCV的cv::dilate函数实现该操作,本文就来介绍一下opencv图片... 目录什么是图像膨胀?结构元素 (KerChina编程nel)OpenCV 中的 cv::dilate() 函

Maven项目中集成数据库文档生成工具的操作步骤

《Maven项目中集成数据库文档生成工具的操作步骤》在Maven项目中,可以通过集成数据库文档生成工具来自动生成数据库文档,本文为大家整理了使用screw-maven-plugin(推荐)的完... 目录1. 添加插件配置到 pom.XML2. 配置数据库信息3. 执行生成命令4. 高级配置选项5. 注意事

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

MybatisX快速生成增删改查的方法示例

《MybatisX快速生成增删改查的方法示例》MybatisX是基于IDEA的MyBatis/MyBatis-Plus开发插件,本文主要介绍了MybatisX快速生成增删改查的方法示例,文中通过示例代... 目录1 安装2 基本功能2.1 XML跳转2.2 代码生成2.2.1 生成.xml中的sql语句头2

使用Python实现调用API获取图片存储到本地的方法

《使用Python实现调用API获取图片存储到本地的方法》开发一个自动化工具,用于从JSON数据源中提取图像ID,通过调用指定API获取未经压缩的原始图像文件,并确保下载结果与Postman等工具直接... 目录使用python实现调用API获取图片存储到本地1、项目概述2、核心功能3、环境准备4、代码实现

Java实现图片淡入淡出效果

《Java实现图片淡入淡出效果》在现代图形用户界面和游戏开发中,**图片淡入淡出(FadeIn/Out)**是一种常见且实用的视觉过渡效果,它可以用于启动画面、场景切换、轮播图、提示框弹出等场景,通过... 目录1. 项目背景详细介绍2. 项目需求详细介绍2.1 功能需求2.2 非功能需求3. 相关技术详细

使用Python自动化生成PPT并结合LLM生成内容的代码解析

《使用Python自动化生成PPT并结合LLM生成内容的代码解析》PowerPoint是常用的文档工具,但手动设计和排版耗时耗力,本文将展示如何通过Python自动化提取PPT样式并生成新PPT,同时... 目录核心代码解析1. 提取 PPT 样式到 jsON关键步骤:代码片段:2. 应用 JSON 样式到

SpringBoot实现二维码生成的详细步骤与完整代码

《SpringBoot实现二维码生成的详细步骤与完整代码》如今,二维码的应用场景非常广泛,从支付到信息分享,二维码都扮演着重要角色,SpringBoot是一个非常流行的Java基于Spring框架的微... 目录一、环境搭建二、创建 Spring Boot 项目三、引入二维码生成依赖四、编写二维码生成代码五

Java如何根据文件名前缀自动分组图片文件

《Java如何根据文件名前缀自动分组图片文件》一大堆文件(比如图片)堆在一个目录下,它们的命名规则遵循一定的格式,混在一起很难管理,所以本文小编就和大家介绍一下如何使用Java根据文件名前缀自动分组图... 目录需求背景分析思路实现代码输出结果知识扩展需求一大堆文件(比如图片)堆在一个目录下,它们的命名规

将图片导入Python的turtle库的详细过程

《将图片导入Python的turtle库的详细过程》在Python编程的世界里,turtle库以其简单易用、图形化交互的特点,深受初学者喜爱,随着项目的复杂度增加,仅仅依靠线条和颜色来绘制图形可能已经... 目录开篇引言正文剖析1. 理解基础:Turtle库的工作原理2. 图片格式与支持3. 实现步骤详解第