深度学习(8)---Diffusion Modle原理剖析

2024-02-26 16:44

本文主要是介绍深度学习(8)---Diffusion Modle原理剖析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、简要回顾
  • 二、原理解释
    • 2.1 核心图:
    • 2.2 第一阶段概括
    • 2.3 第一阶段解释
    • 2.4 第二阶段概括
    • 2.5 第二阶段解释


一、简要回顾

 1. Diffusion Modle的基本过程可由下面这张图说明:

在这里插入图片描述

 2. Diffusion Modle与VAE的区别:

在这里插入图片描述

二、原理解释

2.1 核心图:

在这里插入图片描述

2.2 第一阶段概括

 1. 训练阶段步骤如下图所示:(1) 重复下面五个步骤。(2) 从样本库里拿出一张干净的图片。(3) 随机在1-T中生成一个数字。(4) 生成一个纯噪声。(5) 产生一个有噪声的图。

在这里插入图片描述

 2. 第五步形象说明如下所示,红标指的地方理解成噪声图。

在这里插入图片描述

 3. 那其实实际过程跟上一篇文章中讲的有一些不一样,可参照下图理解。

在这里插入图片描述

2.3 第一阶段解释

 1. 在整体思路部分我们已经知道了正向过程其实就是一个不断加噪的过程,于是我们考虑能不能用一些公式表示出加噪前后图像的关系呢。先思考一下后一时刻的图像受哪些因素影响呢?更具体的说 x 2 x_2 x2 是由 x 1 x_1 x1 和所加的噪声共同决定的,也就是说后一时刻的图像主要由两个量决定,其一是上一时刻图像,其二是所加噪声量。我们就可以用一个公式来表示 x t x_t xt x t − 1 x_{t-1} xt1 时刻两个图像的关系,如下所示:

在这里插入图片描述

Z 1 Z_1 Z1 表示添加的高斯噪声。 X t − 1 X_{t-1} Xt1 Z 1 Z_1 Z1 前面的系数是权重,它们的平方和为1。其实 a t a_t at 还和另外一个量 β t β_t βt 有关,关系式如下:

在这里插入图片描述

 其中 β t β_t βt 是预先给定的值,它是一个随时刻不断增大的值。既然 β t β_t βt 越来越大,则 a t a_t at 越来越小, Z 1 Z_1 Z1 的权重​随着时刻增加越来越大,表明我们所加的高斯噪声越来越多,这和我们整体思路所述是一致的,即越往后所加的噪声越多。

 2. 现在,我们已经得到了 x t x_t xt x t − 1 x_{t-1} xt1 时刻两个图像的关系,但是 x t − 1 x_{t-1} xt1 时刻的图像是未知的。【注:只有 x 0 x_0 x0 阶段图像是已知的,即原图】我们需要再由 x t − 2 x_{t-2} xt2 时刻图像推导出 x t − 1 x_{t-1} xt1 时刻图像。依此类推,直到由 x 0 x_0 x0 时刻推导出 x 1 x_1 x1 时刻图像即可。

在这里插入图片描述

在这里插入图片描述

 最后一步的等式用了高斯分布的相关性质。

在这里插入图片描述

 3. 再列出 x t − 2 x_{t-2} xt2 时刻图像与 x t − 3 x_{t-3} xt3 时刻图像的关系,如下所示:
在这里插入图片描述

 同理,我们将公式5代入到公式4中,得到 x t x_{t} xt 时刻图像和 x t − 3 x_{t-3} xt3 时刻图像的关系,公式如下:

在这里插入图片描述

 4. 我们如果这么一直计算下去,就会得到 x t x_{t} xt 时刻图像和 x 0 x_{0} x0 时刻图像的关系,公式如下:

在这里插入图片描述

在这里插入图片描述

2.4 第二阶段概括

 生成图阶段步骤如下图所示:(1) 生成一个纯噪声图。(2) 重复T次。(3) 再生成一个纯噪声图。(4) 生成前一个图,这里我认为可以理解成弱噪声图。

在这里插入图片描述

2.5 第二阶段解释

 1. 逆向过程是将高斯噪声还原为预期图片的过程。一个 x t x_{t} xt时刻的高斯噪声。我们希望将 x t x_t xt 时刻的高斯噪声变成 x 0 x_0 x0 时刻的图像,这是很难一步到位的,所以先考虑 x t x_t xt 时刻与 x t − 1 x_{t-1} xt1 时刻的关系,然后一步步向前推导得出结论。

 2. 利用贝叶斯公式来求 x t − 1 x_{t-1} xt1 时刻图像,公式如下:

在这里插入图片描述

在这里插入图片描述

 3. 公式8中 q ( X t ∣ X t − 1 ) q(X_t|X_{t-1}) q(XtXt1) 可以由正向过程求得,但 q ( X t ) q(X_t) q(Xt) q ( X t − 1 ) q(X_{t-1}) q(Xt1) 是未知的。由公式7可知,可由 X 0 X_0 X0 得到每一时刻的图像,那当然可以得到 X t X_t Xt X t − 1 X_{t-1} Xt1 时刻的图像,故将公式8加一个 X 0 X_0 X0 作为已知条件,将公式8变成公式9,如下所示:

在这里插入图片描述

 现在可以发现公式9右边3项都是可以算的啦,我们列出它们的公式和对应的分布,如下图所示:

在这里插入图片描述

 4. 知道了公式9等式右边3项服从的分布,我们就可以计算出等式左边的 q ( X t − 1 ∣ X t , X 0 ) q ( X_{t − 1}∣X_t,X_0 ) q(Xt1Xt,X0)。高斯分布表达式和计算过程如下所示:

在这里插入图片描述

在这里插入图片描述

 上图为等式右边三个高斯分布表达式,这个结果怎么得的大家应该都知道叭,就是把各自的均值和方差代入高斯分布表达式即可。现在我们只需对上述三个式子进行对应乘除运算即可,如下图所示:

在这里插入图片描述

在这里插入图片描述

 5. 现在我们有了均值 u u u 和方差 σ 2 σ^2 σ2 就可以求出 q ( X t − 1 ∣ X t , X 0 ) q(X_{t − 1}∣X_t,X_0 ) q(Xt1Xt,X0),也就是求得了 x t − 1 x_{t−1} xt1 时刻的图像。不知道大家有没有发现一个问题,我们刚刚求得的最终结果 u u u σ 2 σ^2 σ2 中含了 X 0 X_0 X0,这是我们最后想要的结果,这时我们考虑用公式7来反向估计 X 0 X_0 X0,如下所示:

在这里插入图片描述

 此时将公式10代入到上图的 u u u 中:

在这里插入图片描述

 现在整理一下 t − 1 t-1 t1 时刻的均值 u u u 和方差 σ 2 σ^2 σ2,如下所示:

在这里插入图片描述

 有了公式12我们就可以估计出 X t − 1 X_{t-1} Xt1 时刻的图像了,接着就可以一步步求出 X t − 2 X_{t-2} Xt2 X t − 3 X_{t-3} Xt3 X 1 X_1 X1 X 0 X_0 X0 的图像啦。

这篇关于深度学习(8)---Diffusion Modle原理剖析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/749514

相关文章

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

Java MCP 的鉴权深度解析

《JavaMCP的鉴权深度解析》文章介绍JavaMCP鉴权的实现方式,指出客户端可通过queryString、header或env传递鉴权信息,服务器端支持工具单独鉴权、过滤器集中鉴权及启动时鉴权... 目录一、MCP Client 侧(负责传递,比较简单)(1)常见的 mcpServers json 配置

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化:从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度:打破默认阈值2. 避免装箱

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解(高频使用)三、clean生命周期核心阶

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N

深度解析Python yfinance的核心功能和高级用法

《深度解析Pythonyfinance的核心功能和高级用法》yfinance是一个功能强大且易于使用的Python库,用于从YahooFinance获取金融数据,本教程将深入探讨yfinance的核... 目录yfinance 深度解析教程 (python)1. 简介与安装1.1 什么是 yfinance?

MyBatis-Plus 与 Spring Boot 集成原理实战示例

《MyBatis-Plus与SpringBoot集成原理实战示例》MyBatis-Plus通过自动配置与核心组件集成SpringBoot实现零配置,提供分页、逻辑删除等插件化功能,增强MyBa... 目录 一、MyBATis-Plus 简介 二、集成方式(Spring Boot)1. 引入依赖 三、核心机制

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.