AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!

本文主要是介绍AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 效果

0 论文工作

这篇论文提出了一种使用领域特定编码器来快速将文本到图像模型适配到新领域的方案。这种被称为基于编码器的领域微调 (E4T) 的方法,专注于微调一个轻量级编码器,将领域特定的文本提示投影到与预训练文本到图像模型更一致的空间中。通过利用预训练的文本到图像模型,EDT 避免了训练整个模型,从而显著减少了训练时间和资源消耗。
文本到图像个性化的目的是教一个预先训练过的扩散模型对用户提供的新颖概念进行推理,并将它们嵌入到自然语言提示引导下的新场景中。然而,目前的个性化方法面临着漫长的培训时间、高存储需求或身份丢失的问题。为了克服这些限制,论文提出了一种基于编码器的域调优方法。该方法的关键见解是,通过对来自给定领域的大量概念进行欠拟合,用以改进泛化,并创建一个更易于快速添加新概念的模型相同的域。具体来说,使用了两个组件:首先,一个编码器,它将来自给定域的目标概念的单一图像作为输入,一个特定的面孔,并学习将其映射到一个表示该概念的单词嵌入中。第二,一组针对文本到图像模型的规则化的权重偏移量,用来学习如何有效地摄取额外的概念。这些组件一起被用于指导对看不见的概念的学习,允许只使用一张图像和多达5个训练步骤来个性化一个模型——加速个性化化n从几十分钟到几秒,同时保持质量。
这个方法有点像一个lora加textual-inversion.严格来说这些方法都是需要用a100起步的显卡来微调。相比之下lora和controlnet显得更加友好,在3090系显卡上就能玩转。虽然作者说他们的速度快了,但是前提是依赖性能优越的显卡。
论文链接

1 论文方法

EDT 包含两个主要部分:
领域特定编码器: 这是一个轻量级的神经网络,经过训练将领域特定的文本提示投影到共享的嵌入空间中。编码器学习表示领域特定的词汇和概念,捕捉目标领域的独特特征。
冻结的文本到图像模型: 使用一个预训练的文本到图像模型(例如 Stable Diffusion),不做任何修改。编码器的输出被用作冻结模型的输入,允许模型根据领域特定编码的文本提示生成图像。
训练过程涉及微调领域特定编码器,以最小化编码的文本提示与冻结文本到图像模型中的对应潜在表示之间的差异。
在这里插入图片描述
该方法有效地适应了预先训练好的扩散模型(中间)来处理新的概念。训练了两个组件,一个单词嵌入编码器(左)和权重偏移量(右)。编码器的预测是扩散模型嵌入空间中的一种新代码,它最好地描述了输入概念。此外,优化学习的权重偏移,使文本到图像模型专门化到目标领域(例如,猫)。偏移量是学习到的常数,通过一个神经网络进行正则化。在培训期间,使用𝑥0=𝐼𝑐。其中𝑥𝑇是从高斯先验,𝑥𝑡不再是𝐼𝑐的一个嘈杂版本。
实现:
论文展示了 E4T 的实际实现,并展示了其在各种领域(包括特定艺术风格、物体类别和视觉效果)上的有效性。该实现使用基于 Transformer 的编码器,并通过对比学习目标进行训练。
优点:
快速个性化: 与传统微调方法相比,E4T 显著减少了训练时间,允许快速适应新领域。
资源高效: 通过冻结文本到图像模型,E4T 需要更少的计算资源和数据。
领域特定适应性: 领域特定编码器使模型能够捕捉目标领域的独特特征,从而实现更准确和相关的图像生成。
泛化性: 编码器可以应用于各种领域和图像生成任务。
缺点:
控制有限: 冻结的文本到图像模型限制了对生成过程的控制能力,只能捕捉到领域特定的词汇。

2 效果

在这里插入图片描述

这篇关于AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1009088

相关文章

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O

一文详解如何在idea中快速搭建一个Spring Boot项目

《一文详解如何在idea中快速搭建一个SpringBoot项目》IntelliJIDEA作为Java开发者的‌首选IDE‌,深度集成SpringBoot支持,可一键生成项目骨架、智能配置依赖,这篇文... 目录前言1、创建项目名称2、勾选需要的依赖3、在setting中检查maven4、编写数据源5、开启热

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

《苹果macOS26Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色》在整体系统设计方面,macOS26采用了全新的玻璃质感视觉风格,应用于Dock栏、应用图标以及桌面小部件等多个界面... 科技媒体 MACRumors 昨日(6 月 13 日)发布博文,报道称在 macOS 26 Tahoe 中

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

Python中OpenCV与Matplotlib的图像操作入门指南

《Python中OpenCV与Matplotlib的图像操作入门指南》:本文主要介绍Python中OpenCV与Matplotlib的图像操作指南,本文通过实例代码给大家介绍的非常详细,对大家的学... 目录一、环境准备二、图像的基本操作1. 图像读取、显示与保存 使用OpenCV操作2. 像素级操作3.

C/C++的OpenCV 进行图像梯度提取的几种实现

《C/C++的OpenCV进行图像梯度提取的几种实现》本文主要介绍了C/C++的OpenCV进行图像梯度提取的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录预www.chinasem.cn备知识1. 图像加载与预处理2. Sobel 算子计算 X 和 Y

JVisualVM之Java性能监控与调优利器详解

《JVisualVM之Java性能监控与调优利器详解》本文将详细介绍JVisualVM的使用方法,并结合实际案例展示如何利用它进行性能调优,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1. JVisualVM简介2. JVisualVM的安装与启动2.1 启动JVisualVM2

c/c++的opencv图像金字塔缩放实现

《c/c++的opencv图像金字塔缩放实现》本文主要介绍了c/c++的opencv图像金字塔缩放实现,通过对原始图像进行连续的下采样或上采样操作,生成一系列不同分辨率的图像,具有一定的参考价值,感兴... 目录图像金字塔简介图像下采样 (cv::pyrDown)图像上采样 (cv::pyrUp)C++ O

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结