stable diffusion(LDM)--图片生成模型

2023-10-14 12:20

本文主要是介绍stable diffusion(LDM)--图片生成模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 简介

本文根据2022年4月的《High-Resolution Image Synthesis with Latent Diffusion Models 》翻译总结的。论文地址https://arxiv.org/pdf/2112.10752.pdf。源码地址:GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models。

以前的扩散模型(diffusion models (DMs) )基于像素级别的,其需要上百个GPU day 进行训练。我们的方法latent diffusion models (LDMs) 在减少计算复杂度和保留细节、提升保真度中接近了最佳。

我们的方法latent diffusion models (LDMs)是两阶段模型(two-stage)。先对图片进行压缩,将图片压缩为隐变量表示(latent),减少计算复杂度,然后输入扩散模型。

如下图所示,我们进行的感知(perceptual)图片压缩不会丢失太多语义信息,但减少了计算量。

2 相关工作

图片生成模型

  • GAN模型的结果是被限制在比较的数据集,因为它的对抗学习过程不是很容易扩展模型复杂度和多模态分布。GAN虽然可以生成高分辨率的图片,但很难优化而较难捕捉完整的数据分布。
  • Variational autoencoders (VAE) 和 flow-based的模型可以高效的合成高分辨率图片,但其效果不如GAN模型。
  • autoregressive models (ARM)在密集(density)估计上有很强的表现,但计算要求高的体系结构和顺序采样过程,故只能生成低分辨率图像。因为图片的像素级别的表示包含着几乎不可感知、高频的细节, maximum-likelihood 训练花费大量的精力来对这些细节建模,导致了很长的训练时间。为了扩展到高分辨率,一些两阶段(two-stage)方法使用ARM来构建压缩的图片隐变量表示,而不是原始像素级别的表示。
  • 扩散模型是属于基于可能性的( likelihood-based )模型。基于可能性的方法强调好的密集(density)估计,这使得其表现良好。

两阶段(two-stage)图片生成

VQ-VAEs在一个离散化的空间使用自回归模型(ARM)学习图片的先验。

我们的方法latent diffusion models (LDMs)也是两阶段模型。

3 方法

我们模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。

3.1 感知(perceptual)图片压缩

主要讲上图模型的左半部分(红色)。

为了避免任意的高可变的隐空间,我们实验了两种正则。第一种是KL-reg,施加了一个轻微的KL惩罚到学习到的隐变量,类似于VAE。另一种是VQ-reg,在解码器里使用了向量量化层。

这个编码器/解码器,我们可以只训练一次,适用于不同的DM模型训练。

3.2 Latent Diffusion Models

主要讲上图模型的中间部分(绿色)。

  • 一般扩散模型的目标函数如下,可以参考DDPM:DDPM--Denoising Diffusion Probabilistic Models_AI强仔的博客-CSDN博客:

  • 采用隐变量表示的扩散模型目标函数,如下:​

3.3 调节机制/cross-attention

我们通过在DM模型的UNET网络中引入cross-attention,实现灵活的图片生成控制。对不同输入模态,可以有效学习基于注意力的模型。

最终目标函数变成如下形式:

4 实验

4.1感知压缩权衡

编码器下采样因子,我们取f ∈ {1, 2, 4, 8, 16, 32} ,即LDM-f表示不同的模型。其中LDM-1表示没有压缩,等同于原来基于像素的DM。

从下图,可以看出来,LDM-4和LDM-8合成高质量图片效果较好。

4.2 图片生成

如下图,LDM模型效果很好。

LDM的参数也较少,1.45B(14.5亿参数)。

4.3条件生成

如下图,我们可以根据左上角的空间布局草稿图,生成高分辨率的大图。

下图根据文本生成图片,可以看到效果还不错。

4.4 高分辨率生成

我们可以根据低分辨率图片生成高分辨率图片,如下面中间部分。

4.5图像修复

可以将图片中的一部分恢复。下图是展示了抠图的效果。

这篇关于stable diffusion(LDM)--图片生成模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210462

相关文章

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC

Java实现将HTML文件与字符串转换为图片

《Java实现将HTML文件与字符串转换为图片》在Java开发中,我们经常会遇到将HTML内容转换为图片的需求,本文小编就来和大家详细讲讲如何使用FreeSpire.DocforJava库来实现这一功... 目录前言核心实现:html 转图片完整代码场景 1:转换本地 HTML 文件为图片场景 2:转换 H

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

基于C#实现PDF转图片的详细教程

《基于C#实现PDF转图片的详细教程》在数字化办公场景中,PDF文件的可视化处理需求日益增长,本文将围绕Spire.PDFfor.NET这一工具,详解如何通过C#将PDF转换为JPG、PNG等主流图片... 目录引言一、组件部署二、快速入门:PDF 转图片的核心 C# 代码三、分辨率设置 - 清晰度的决定因

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

使用Python实现无损放大图片功能

《使用Python实现无损放大图片功能》本文介绍了如何使用Python的Pillow库进行无损图片放大,区分了JPEG和PNG格式在放大过程中的特点,并给出了示例代码,JPEG格式可能受压缩影响,需先... 目录一、什么是无损放大?二、实现方法步骤1:读取图片步骤2:无损放大图片步骤3:保存图片三、示php

C#使用Spire.XLS快速生成多表格Excel文件

《C#使用Spire.XLS快速生成多表格Excel文件》在日常开发中,我们经常需要将业务数据导出为结构清晰的Excel文件,本文将手把手教你使用Spire.XLS这个强大的.NET组件,只需几行C#... 目录一、Spire.XLS核心优势清单1.1 性能碾压:从3秒到0.5秒的质变1.2 批量操作的优雅

Python使用python-pptx自动化操作和生成PPT

《Python使用python-pptx自动化操作和生成PPT》这篇文章主要为大家详细介绍了如何使用python-pptx库实现PPT自动化,并提供实用的代码示例和应用场景,感兴趣的小伙伴可以跟随小编... 目录使用python-pptx操作PPT文档安装python-pptx基础概念创建新的PPT文档查看

在ASP.NET项目中如何使用C#生成二维码

《在ASP.NET项目中如何使用C#生成二维码》二维码(QRCode)已广泛应用于网址分享,支付链接等场景,本文将以ASP.NET为示例,演示如何实现输入文本/URL,生成二维码,在线显示与下载的完整... 目录创建前端页面(Index.cshtml)后端二维码生成逻辑(Index.cshtml.cs)总结

Python实现数据可视化图表生成(适合新手入门)

《Python实现数据可视化图表生成(适合新手入门)》在数据科学和数据分析的新时代,高效、直观的数据可视化工具显得尤为重要,下面:本文主要介绍Python实现数据可视化图表生成的相关资料,文中通过... 目录前言为什么需要数据可视化准备工作基本图表绘制折线图柱状图散点图使用Seaborn创建高级图表箱线图热