[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models

本文主要是介绍[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

使用引导扩散模型编辑真实图像的空文本反转

code links: https://null- textinversion.github.io/.

Abstract

在本文中,我们引入了一种精确的反演技术,从而方便了直观的基于文本的图像修改。

我们提出的反演包含两个新的关键组成部分:

  • (i)扩散模型的关键反演。我们为每个时间戳使用单个关键噪声向量,并围绕它进行优化。我们证明了直接反演本身是不够的,但确实为我们的优化提供了一个很好的锚定。
  • (ii)空文本优化,我们只修改用于无分类器引导的无条件文本嵌入,而不是输入文本嵌入。这允许保持模型权重和条件嵌入不变,因此可以应用基于提示的编辑,同时避免对模型权重进行繁琐的调优。

取得的效果: 在各种图像和提示编辑上进行了广泛的评估,显示了对真实图像的高保真编辑。

Introduction

在本文中,我们引入了一种有效的反演方案,实现了近乎完美的重构,同时保留了原始模型丰富的文本引导编辑能力(见图1)。我们的方法建立在对导扩散模型的两个关键方面的分析之上:无分类器制导和DDIM反演。

据我们所知,我们的方法是第一个在真实图像上启用Prompt-to-Prompt[16]文本编辑技术的方法。此外,与最近的方法不同[19,39],我们不调整模型权重,从而避免破坏训练模型的先验,并为每张图像复制整个模型。通过全面的消融研究和比较,我们展示了我们的关键组件对实现给定真实图像的高保真重建的贡献,同时允许有意义和直观的编辑能力。

Method

framework

在这里插入图片描述

  • 第一行:关键反转。我们首先对输入图像应用初始DDIM反演,估计扩散轨迹。 从最后一个潜在的z * T开始扩散过程会导致不满意的重建,因为潜在代码离原始轨迹越来越远。
  • 我们使用初始轨迹作为优化的枢轴,使扩散反向轨迹{* zt}T1更接近编码z * 0的原始图像。
  • 第二行:时间戳t的空文本优化。无分类器引导包括执行两次预测θ—使用文本条件嵌入和无条件使用空文本嵌入∅,然后,这些都是用w(中)的指导尺度外推的
  • 我们仅通过采用重建MSE损失(红色)来优化无条件嵌入∅t

使用我们的方法编辑真实图像。
在这里插入图片描述

  • 我们首先对真实输入图像应用一个空文本反转,实现高保真重建。
  • 然后,应用各种基于提示符到提示符的文本编辑操作。
  • 可以看出,我们的反转方案在保持高可编辑性的同时提供了高保真度。参见附录C(图10)中的其他示例。

我们的方法基于两个主要的观察结果:

  • DDIM反演在应用无分类器引导时重构效果不理想,但为优化提供了良好的起点,使我们能够高效地实现高保真反演。
  • 其次,优化用于无分类器引导的无条件空嵌入,允许精确的重建,同时避免模型和条件嵌入的调整。

3.1 background and preliminaries

文本引导扩散模型旨在将随机噪声向量zt和文本条件P映射到一个输出图像z0,该输出image z0对应于给定的条件提示符。为了实现序列去噪,训练网络εθ对人工噪声进行预测,遵循目标:
在这里插入图片描述
其中,在这里插入图片描述
是文本条件的嵌入。

在推断的时候:给定一个噪声向量zT,使用我们训练好的T步网络对噪声进行连续预测,从而逐步去除噪声。

采用the deterministic DDIM sampling [35]:
在这里插入图片描述

扩散模型通常在图像像素空间中运行,其中z0是实数图像的样本。

我们使用流行和公开的稳定扩散模型[30],其中扩散前向过程应用于潜在图像编码z0 = E(x0),扩散后向过程x0 = D(z0)的末端使用图像解码器。

Classifier-free guidance.

更正式地说,设∅= ψ(“”)为空文本的嵌入值,设w为引导尺度参数,则无分类器引导预测定义为:
在这里插入图片描述

DDIM inversion

ODE过程可以在小步骤的限制下进行反转:
在这里插入图片描述
换句话说,扩散过程以相反的方向进行,即z0→zT而不是zT→z0,其中z0设置为给定实像的编码。

3.2 Pivotal Inversion

特别是,我们的目标是围绕一个关键噪声向量进行优化,这是一个很好的近似,因此允许更有效的反演。

我们把这个w = 1的初始DDIM反转作为我们的枢轴轨迹

我们的优化最大化了与原始图像的相似性,同时保持我们执行有意义的编辑的能力。
在实践中,我们按照扩散过程t = t→t = 1的顺序对每个时间戳t执行单独的优化,目的是尽可能接近初始轨迹z * t,…, z * 0:
在这里插入图片描述

其中zt - 1为优化的中间结果。

3.3. Null-text optimization

我们利用了无分类器引导的关键特征-结果受到无条件预测的高度影响。因此,我们将默认的空文本嵌入替换为优化后的,叫做Null-text optimization。 即,对于每个输入图像,我们只优化无条件嵌入∅,初始化为空文本嵌入。模型和条件文本嵌入保持不变。
我们将优化单个无条件嵌入∅称为全局空文本优化。

对于每个时间步, 优化:
在这里插入图片描述
更新规则:
在这里插入图片描述

在这里插入图片描述

Experiments

在这里插入图片描述

  • 顶部:我们将我们的完整算法(绿线)与不同变体的性能进行比较,通过测量PSNR分数作为数量优化迭代的函数和运行时间(以分钟为单位)来评估重构质量。
  • 下:我们直观地展示了我们的完整算法经过200次迭代后的反演结果(在右边)与其他基线的比较。所有迭代的结果显示在附录B中(图13和14)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这篇关于[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833142

相关文章

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3

Java MCP 的鉴权深度解析

《JavaMCP的鉴权深度解析》文章介绍JavaMCP鉴权的实现方式,指出客户端可通过queryString、header或env传递鉴权信息,服务器端支持工具单独鉴权、过滤器集中鉴权及启动时鉴权... 目录一、MCP Client 侧(负责传递,比较简单)(1)常见的 mcpServers json 配置

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化:从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度:打破默认阈值2. 避免装箱

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解(高频使用)三、clean生命周期核心阶

深入解析C++ 中std::map内存管理

《深入解析C++中std::map内存管理》文章详解C++std::map内存管理,指出clear()仅删除元素可能不释放底层内存,建议用swap()与空map交换以彻底释放,针对指针类型需手动de... 目录1️、基本清空std::map2️、使用 swap 彻底释放内存3️、map 中存储指针类型的对象

Java Scanner类解析与实战教程

《JavaScanner类解析与实战教程》JavaScanner类(java.util包)是文本输入解析工具,支持基本类型和字符串读取,基于Readable接口与正则分隔符实现,适用于控制台、文件输... 目录一、核心设计与工作原理1.底层依赖2.解析机制A.核心逻辑基于分隔符(delimiter)和模式匹

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

深度解析Python yfinance的核心功能和高级用法

《深度解析Pythonyfinance的核心功能和高级用法》yfinance是一个功能强大且易于使用的Python库,用于从YahooFinance获取金融数据,本教程将深入探讨yfinance的核... 目录yfinance 深度解析教程 (python)1. 简介与安装1.1 什么是 yfinance?