[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models

本文主要是介绍[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

使用引导扩散模型编辑真实图像的空文本反转

code links: https://null- textinversion.github.io/.

Abstract

在本文中,我们引入了一种精确的反演技术,从而方便了直观的基于文本的图像修改。

我们提出的反演包含两个新的关键组成部分:

  • (i)扩散模型的关键反演。我们为每个时间戳使用单个关键噪声向量,并围绕它进行优化。我们证明了直接反演本身是不够的,但确实为我们的优化提供了一个很好的锚定。
  • (ii)空文本优化,我们只修改用于无分类器引导的无条件文本嵌入,而不是输入文本嵌入。这允许保持模型权重和条件嵌入不变,因此可以应用基于提示的编辑,同时避免对模型权重进行繁琐的调优。

取得的效果: 在各种图像和提示编辑上进行了广泛的评估,显示了对真实图像的高保真编辑。

Introduction

在本文中,我们引入了一种有效的反演方案,实现了近乎完美的重构,同时保留了原始模型丰富的文本引导编辑能力(见图1)。我们的方法建立在对导扩散模型的两个关键方面的分析之上:无分类器制导和DDIM反演。

据我们所知,我们的方法是第一个在真实图像上启用Prompt-to-Prompt[16]文本编辑技术的方法。此外,与最近的方法不同[19,39],我们不调整模型权重,从而避免破坏训练模型的先验,并为每张图像复制整个模型。通过全面的消融研究和比较,我们展示了我们的关键组件对实现给定真实图像的高保真重建的贡献,同时允许有意义和直观的编辑能力。

Method

framework

在这里插入图片描述

  • 第一行:关键反转。我们首先对输入图像应用初始DDIM反演,估计扩散轨迹。 从最后一个潜在的z * T开始扩散过程会导致不满意的重建,因为潜在代码离原始轨迹越来越远。
  • 我们使用初始轨迹作为优化的枢轴,使扩散反向轨迹{* zt}T1更接近编码z * 0的原始图像。
  • 第二行:时间戳t的空文本优化。无分类器引导包括执行两次预测θ—使用文本条件嵌入和无条件使用空文本嵌入∅,然后,这些都是用w(中)的指导尺度外推的
  • 我们仅通过采用重建MSE损失(红色)来优化无条件嵌入∅t

使用我们的方法编辑真实图像。
在这里插入图片描述

  • 我们首先对真实输入图像应用一个空文本反转,实现高保真重建。
  • 然后,应用各种基于提示符到提示符的文本编辑操作。
  • 可以看出,我们的反转方案在保持高可编辑性的同时提供了高保真度。参见附录C(图10)中的其他示例。

我们的方法基于两个主要的观察结果:

  • DDIM反演在应用无分类器引导时重构效果不理想,但为优化提供了良好的起点,使我们能够高效地实现高保真反演。
  • 其次,优化用于无分类器引导的无条件空嵌入,允许精确的重建,同时避免模型和条件嵌入的调整。

3.1 background and preliminaries

文本引导扩散模型旨在将随机噪声向量zt和文本条件P映射到一个输出图像z0,该输出image z0对应于给定的条件提示符。为了实现序列去噪,训练网络εθ对人工噪声进行预测,遵循目标:
在这里插入图片描述
其中,在这里插入图片描述
是文本条件的嵌入。

在推断的时候:给定一个噪声向量zT,使用我们训练好的T步网络对噪声进行连续预测,从而逐步去除噪声。

采用the deterministic DDIM sampling [35]:
在这里插入图片描述

扩散模型通常在图像像素空间中运行,其中z0是实数图像的样本。

我们使用流行和公开的稳定扩散模型[30],其中扩散前向过程应用于潜在图像编码z0 = E(x0),扩散后向过程x0 = D(z0)的末端使用图像解码器。

Classifier-free guidance.

更正式地说,设∅= ψ(“”)为空文本的嵌入值,设w为引导尺度参数,则无分类器引导预测定义为:
在这里插入图片描述

DDIM inversion

ODE过程可以在小步骤的限制下进行反转:
在这里插入图片描述
换句话说,扩散过程以相反的方向进行,即z0→zT而不是zT→z0,其中z0设置为给定实像的编码。

3.2 Pivotal Inversion

特别是,我们的目标是围绕一个关键噪声向量进行优化,这是一个很好的近似,因此允许更有效的反演。

我们把这个w = 1的初始DDIM反转作为我们的枢轴轨迹

我们的优化最大化了与原始图像的相似性,同时保持我们执行有意义的编辑的能力。
在实践中,我们按照扩散过程t = t→t = 1的顺序对每个时间戳t执行单独的优化,目的是尽可能接近初始轨迹z * t,…, z * 0:
在这里插入图片描述

其中zt - 1为优化的中间结果。

3.3. Null-text optimization

我们利用了无分类器引导的关键特征-结果受到无条件预测的高度影响。因此,我们将默认的空文本嵌入替换为优化后的,叫做Null-text optimization。 即,对于每个输入图像,我们只优化无条件嵌入∅,初始化为空文本嵌入。模型和条件文本嵌入保持不变。
我们将优化单个无条件嵌入∅称为全局空文本优化。

对于每个时间步, 优化:
在这里插入图片描述
更新规则:
在这里插入图片描述

在这里插入图片描述

Experiments

在这里插入图片描述

  • 顶部:我们将我们的完整算法(绿线)与不同变体的性能进行比较,通过测量PSNR分数作为数量优化迭代的函数和运行时间(以分钟为单位)来评估重构质量。
  • 下:我们直观地展示了我们的完整算法经过200次迭代后的反演结果(在右边)与其他基线的比较。所有迭代的结果显示在附录B中(图13和14)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这篇关于[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833142

相关文章

Python包管理工具核心指令uvx举例详细解析

《Python包管理工具核心指令uvx举例详细解析》:本文主要介绍Python包管理工具核心指令uvx的相关资料,uvx是uv工具链中用于临时运行Python命令行工具的高效执行器,依托Rust实... 目录一、uvx 的定位与核心功能二、uvx 的典型应用场景三、uvx 与传统工具对比四、uvx 的技术实

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析

《Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析》InstantiationAwareBeanPostProcessor是Spring... 目录一、什么是InstantiationAwareBeanPostProcessor?二、核心方法解

深入解析 Java Future 类及代码示例

《深入解析JavaFuture类及代码示例》JavaFuture是java.util.concurrent包中用于表示异步计算结果的核心接口,下面给大家介绍JavaFuture类及实例代码,感兴... 目录一、Future 类概述二、核心工作机制代码示例执行流程2. 状态机模型3. 核心方法解析行为总结:三

springboot项目中使用JOSN解析库的方法

《springboot项目中使用JOSN解析库的方法》JSON,全程是JavaScriptObjectNotation,是一种轻量级的数据交换格式,本文给大家介绍springboot项目中使用JOSN... 目录一、jsON解析简介二、Spring Boot项目中使用JSON解析1、pom.XML文件引入依

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

Mybatis Plus JSqlParser解析sql语句及JSqlParser安装步骤

《MybatisPlusJSqlParser解析sql语句及JSqlParser安装步骤》JSqlParser是一个用于解析SQL语句的Java库,它可以将SQL语句解析为一个Java对象树,允许... 目录【一】jsqlParser 是什么【二】JSqlParser 的安装步骤【三】使用场景【1】sql语