Stable diffusion文生图大模型——隐扩散模型原理解析

本文主要是介绍Stable diffusion文生图大模型——隐扩散模型原理解析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、前言

本篇文章，我们将讲这些年非常流行的文生图大模型——Stable Diffusion。该模型也不难，甚至说很简单。创新点也相对较少，如果你学会了我以前的文章讲过的模型，学习这个也自然水到渠成！

参考论文：High-Resolution Image Synthesis with Latent Diffusion Models (arxiv.org)

官方代码：GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models

视频：[Stable diffusion生成大模型——隐扩散模型原理解析-哔哩哔哩]

演示：

在这里插入图片描述

2、Stable Diffusion

2.1、隐空间扩散

在传统的扩散模型中，都是一上来就对图像就行加噪去噪。这种做法有一些难以避免的问题——效率。一方面，图像的像素如果非常大，那么计算量将是难以想象地；另一方面，我们在VAE那里说到过，图像之中，总是存在一些冗余地部分。我们直接拿图像去扩散，相当于也把那些冗余的部分也一起计算了。

所以，作者选择先把图像编码成一个维度相对较小的编码向量（或特征图）。然后再训练扩散模型

那么，该如何进行编码呢？答案就是使用VAE（详细请看VAE变分自编码器原理）。总所周知，使用VAE可以把图像编码成维度相对较小的向量（或特征图）

除此之外，就是使用离散化的编码器——VQGAN（详细请看VQGAN原理解析）

这两种方法，都可以进行图像的压缩。压缩完成之后，在进行扩散过程

在这里插入图片描述

其中编码器对应图中的 $\mathcal{E}$ ，解码器对应 $\mathcal{D}$ 。也就是说，先把图像x通过 $\mathcal{E}$ 进行编码，再进行Diffusion Process

2.2、条件生成

如果你用过Stable Diffusion。就必然知道它可以进行条件生成。那么该如何把条件引入Diffusion里面呢？在Diffusion系列里面，我其实从没有讲过如何进行条件生成。

其实进行条件生成有一个很简单的理解方式。那就是直接采用下面的损失函数
$L=||\epsilon-\epsilon_\theta(x_t,t,y)||^2\tag{1}$
为什么可以这样？我们回忆一下DDPM里面的损失函数
$L=||\epsilon-\epsilon_\theta(x_t,t)||^2\tag{2}$
区别在哪里，那就是Eq.(1)里面神经网络的输入多加了一个条件y。这个条件y可以是标签，文本等等信息。

为什么多加了一个y就可以进行条件生成？

我们从一个比较简单的方面的来理解。在DDPM里面，我们层提到三种预测方式——均值、原始图像，噪声

我们最终只使用噪声而已。那假如我们预测的是原始图像呢？
$L=||x_0-x_\theta(x_t,t)||^2$
如果我们加入一个条件y
$L=||x_0-x_\theta(x_t,t，y)||^2$
加入的一个条件y（比如假设它是图像的类别标签），这就意味着什么呢？意味着我们告诉了神经网络图像 $x_0$ 的类别是什么。那么让神经网络去预测 $x_0$ ，肯定会相对容易，因为神经网络已经知道了图像的类别，排除了其他类别图像的可能。

所以，对于预测噪声也是同理。那么Eq.(1)也是同理，加入一个条件y。更加有利于去噪。

2.3、损失函数和网络结构

对于DIffusion的网络结构，其实我从来没说过。我只讲了用神经网络去预测噪声。对网络结构这些东西，我以后打算出一个单独的系列来讲。

现在主要讲模型原理。但为了完整性。我还是简单讲一下吧。万一有些读者已经有这些方面的基础呢

那么网络的结构该如何呢？在DDPM中，其实用的是U-Net结构的神经网络去预测噪声。在Stable Diffusion里面的，也沿用了这个结构。

我们前面说过，要给预测噪声的神经网络加入条件。但我们不是纯粹的把条件直接送进去。而是对条件进行编码表征之后再送进去。我们用 $\mathcal{T}_\theta(y)$ 表示把条件编码成对应的中间表征。所以损失函数变成了这样
$L_{LDM}=\mathbb{E}_{{\mathcal{E}(x)},\epsilon\sim \mathcal{N}(0,1),t}\left[||\epsilon-\epsilon_\theta(z_t,t,\mathcal{T}_\theta(y)||^2\right]$
其中， $z_t$ 是 $\mathcal{E}$ 编码得到图像加噪之后的结果。t代表时刻。

除此之外，如果你看了上面那张图，就能看到有一个Q，K，V的东西。那其实自注意力机制。这玩意儿是Transformer里面的。原本属于自然语言处理那边的。我打算以后分出一个系列讲自然语言处理。

在这里我简单讲一下，如果你会Transformer，应该不会陌生。如果不会，你听了估计也不会明白，我在这里不深入讲。讲到自然语言处理再讲

下面我们来简单过一下。对于里面的Q，K，V。计算如下
$Q=W^{(i)}_Q\cdot\phi_i(z_t),K=W_k^{(i)}\cdot \mathcal{T}_\theta(y),V=W_V^{(i)}\cdot\mathcal{T_{\theta}}(y)$
其中， $\phi_i(z_t)$ 是预测 $\epsilon_\theta$ 的U-Net的中间表征。

那么，里面的 $\mathcal{T}_\theta$ 究竟是什么呢？这要看具体情况，要根据具体特定领域而选择。比如当y是文本时，我们可以使用Transformer，或者使用CLIP等等。要根据具体情况而定。

2.4、训练

对于Stable Diffusion的训练。DIffusion和编码解码部分，并不是并行训练。

而是先训练好一个编码器和解码器。然后在训练Diffusion。对于条件的编码，一般情况下也是要一个训练好的，而不是跟着Diffusion一起训练。

2.5、采样

很简单，从高斯分布中采样一个 $z_T$ ，然后设置条件。慢慢去噪。到了 $z_0$ 之后，使用解码器，就可以得到图像

3、结束

本篇文章到此结束，如有问题，还望指出。阿里嘎多！

在这里插入图片描述

这篇关于Stable diffusion文生图大模型——隐扩散模型原理解析的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Stable diffusion文生图大模型——隐扩散模型原理解析

1、前言

2、Stable Diffusion

2.1、隐空间扩散

2.2、条件生成

2.3、损失函数和网络结构

2.4、训练

2.5、采样

3、结束

相关文章

深度解析Spring Security 中的 SecurityFilterChain核心功能

全面解析Golang 中的 Gorilla CORS 中间件正确用法

Mysql中设计数据表的过程解析

深度解析Nginx日志分析与499状态码问题解决

Spring Security 单点登录与自动登录机制的实现原理

MySQL CTE (Common Table Expressions)示例全解析

Spring Boot 3.x 中 WebClient 示例详解析

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

C#解析JSON数据全攻略指南

Spring Boot3.0新特性全面解析与应用实战