深度学习（8）---Diffusion Modle原理剖析

本文主要是介绍深度学习（8）---Diffusion Modle原理剖析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

一、简要回顾
二、原理解释
- 2.1 核心图：
- 2.2 第一阶段概括
- 2.3 第一阶段解释
- 2.4 第二阶段概括
- 2.5 第二阶段解释

一、简要回顾

1. Diffusion Modle的基本过程可由下面这张图说明：

在这里插入图片描述

2. Diffusion Modle与VAE的区别：

在这里插入图片描述

二、原理解释

2.1 核心图：

在这里插入图片描述

2.2 第一阶段概括

1. 训练阶段步骤如下图所示：(1) 重复下面五个步骤。(2) 从样本库里拿出一张干净的图片。(3) 随机在1-T中生成一个数字。(4) 生成一个纯噪声。(5) 产生一个有噪声的图。

在这里插入图片描述

2. 第五步形象说明如下所示，红标指的地方理解成噪声图。

在这里插入图片描述

3. 那其实实际过程跟上一篇文章中讲的有一些不一样，可参照下图理解。

在这里插入图片描述

2.3 第一阶段解释

1. 在整体思路部分我们已经知道了正向过程其实就是一个不断加噪的过程，于是我们考虑能不能用一些公式表示出加噪前后图像的关系呢。先思考一下后一时刻的图像受哪些因素影响呢？更具体的说 $x_2$ 是由 $x_1$ 和所加的噪声共同决定的，也就是说后一时刻的图像主要由两个量决定，其一是上一时刻图像，其二是所加噪声量。我们就可以用一个公式来表示 $x_t$ 和 $x_{t-1}$ 时刻两个图像的关系，如下所示：

在这里插入图片描述

$Z_1$ 表示添加的高斯噪声。 $X_{t-1}$ 和 $Z_1$ 前面的系数是权重，它们的平方和为1。其实 $a_t$ 还和另外一个量 $β_t$ 有关，关系式如下：

在这里插入图片描述

其中 $β_t$ 是预先给定的值，它是一个随时刻不断增大的值。既然 $β_t$ 越来越大，则 $a_t$ 越来越小， $Z_1$ 的权重随着时刻增加越来越大，表明我们所加的高斯噪声越来越多，这和我们整体思路所述是一致的，即越往后所加的噪声越多。

2. 现在，我们已经得到了 $x_t$ 和 $x_{t-1}$ 时刻两个图像的关系，但是 $x_{t-1}$ 时刻的图像是未知的。【注：只有 $x_0$ 阶段图像是已知的，即原图】我们需要再由 $x_{t-2}$ 时刻图像推导出 $x_{t-1}$ 时刻图像。依此类推，直到由 $x_0$ 时刻推导出 $x_1$ 时刻图像即可。

在这里插入图片描述

最后一步的等式用了高斯分布的相关性质。

在这里插入图片描述

3. 再列出 $x_{t-2}$ 时刻图像与 $x_{t-3}$ 时刻图像的关系，如下所示：
在这里插入图片描述

同理，我们将公式5代入到公式4中，得到 $x_{t}$ 时刻图像和 $x_{t-3}$ 时刻图像的关系，公式如下：

在这里插入图片描述

4. 我们如果这么一直计算下去，就会得到 $x_{t}$ 时刻图像和 $x_{0}$ 时刻图像的关系，公式如下：

在这里插入图片描述

2.4 第二阶段概括

生成图阶段步骤如下图所示：(1) 生成一个纯噪声图。(2) 重复T次。(3) 再生成一个纯噪声图。(4) 生成前一个图，这里我认为可以理解成弱噪声图。

在这里插入图片描述

2.5 第二阶段解释

1. 逆向过程是将高斯噪声还原为预期图片的过程。一个 $x_{t}$ 时刻的高斯噪声。我们希望将 $x_t$ 时刻的高斯噪声变成 $x_0$ 时刻的图像，这是很难一步到位的，所以先考虑 $x_t$ 时刻与 $x_{t-1}$ 时刻的关系，然后一步步向前推导得出结论。

2. 利用贝叶斯公式来求 $x_{t-1}$ 时刻图像，公式如下：

在这里插入图片描述

3. 公式8中 $q(X_t|X_{t-1})$ 可以由正向过程求得，但 $q(X_t)$ 和 $q(X_{t-1})$ 是未知的。由公式7可知，可由 $X_0$ 得到每一时刻的图像，那当然可以得到 $X_t$ 和 $X_{t-1}$ 时刻的图像，故将公式8加一个 $X_0$ 作为已知条件，将公式8变成公式9，如下所示：

在这里插入图片描述

现在可以发现公式9右边3项都是可以算的啦，我们列出它们的公式和对应的分布，如下图所示：

在这里插入图片描述

4. 知道了公式9等式右边3项服从的分布，我们就可以计算出等式左边的 $q ( X_{t − 1}∣X_t,X_0 )$ 。高斯分布表达式和计算过程如下所示：

在这里插入图片描述

上图为等式右边三个高斯分布表达式，这个结果怎么得的大家应该都知道叭，就是把各自的均值和方差代入高斯分布表达式即可。现在我们只需对上述三个式子进行对应乘除运算即可，如下图所示：

在这里插入图片描述

5. 现在我们有了均值 $u$ 和方差 $σ^2$ 就可以求出 $q(X_{t − 1}∣X_t,X_0 )$ ，也就是求得了 $x_{t−1}$ 时刻的图像。不知道大家有没有发现一个问题，我们刚刚求得的最终结果 $u$ 和 $σ^2$ 中含了 $X_0$ ，这是我们最后想要的结果，这时我们考虑用公式7来反向估计 $X_0$ ，如下所示：