一步成像:Hyper-SD在图像合成中的创新与应用

2024-05-09 09:12

本文主要是介绍一步成像:Hyper-SD在图像合成中的创新与应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、摘要

         论文:https://arxiv.org/pdf/2404.13686

        代码:https://huggingface.co/ByteDance/Hyper-SD

        在生成人工智能领域,扩散模型(Diffusion Models, DMs)因其出色的图像生成质量而备受关注,但其多步骤推理过程的高计算成本一直是其广泛应用的瓶颈。本文介绍的Hyper-SD框架是来自字节的一篇工作,通过创新的轨迹分割一致性蒸馏(Trajectory Segmented Consistency Distillation, TSCD)技术,显著提升了图像合成的效率,同时保持了生成图像的高质量。 主要贡献包括:

  1. 轨迹分割一致性蒸馏(TSCD):一种新颖的蒸馏技术,通过在预定义的时间步段内逐步执行一致性蒸馏,有效保留了原始ODE(常微分方程)轨迹,同时减少了推理步骤。
  2. 人类反馈学习:结合人类对生成图像的美学偏好,通过反馈学习优化模型性能,尤其在低步骤推理情况下显著提升了图像质量。
  3. 统一的LoRA模型:提出了一个支持1到8步推理的统一LoRA模型,为不同需求的用户提供了灵活性,同时保证了全时推理的一致性。
  4. 性能提升:在少步骤推理中,Hyper-SD在多个评估指标上超越了现有技术,包括CLIP Score和Aes Score等,证明了其在图像合成任务中的领先地位。

        本博客对Hyper-SD的技术细节,包括其核心算法、实验结果做简单总结供快速阅读之用。

二、核心内容:

        这篇论文介绍了一个名为Hyper-SD的新型框架,旨在提高扩散模型(Diffusion Models, DMs)在图像合成任务中的效率和性能。以下是对论文内容的总结,包括主要贡献、主要创新、核心网络结构和核心算法细节:

1.)主要贡献:

  1. 加速(Accelerate):提出了轨迹分割一致性蒸馏(Trajectory Segmented Consistency Distillation, TSCD),这是一种更细粒度和高阶一致性蒸馏方法,用于原始基于分数的模型。
  2. 提升(Boost):通过人类反馈学习(Human Feedback Learning, ReFL)进一步提升模型在低步数推理条件下的性能。
  3. 统一(Unify):提供了一个统一的低秩适应(Low-Rank Adaptation, LoRA)模型,作为全时一致性模型,并支持所有NFE(Noise Free Expressions)的推理。
  4. 性能(Performance):Hyper-SD在1到8步推理中为SDXL和SD1.5实现了最先进的性能。

2.)主要创新:

  • 轨迹分割一致性蒸馏(TSCD):通过将时间步分割成多个段,并在每个段内执行一致性蒸馏,逐步减少段数以实现全时一致性。
  • 人类反馈学习:利用人类对美学的反馈和现有的视觉感知模型来优化加速模型,调整ODE(常微分方程)轨迹以更好地适应少步推理。
  • 分数蒸馏(Score Distillation):通过统一的LoRA技术,增强了一步生成性能,实现了理想的全时一致性模型。

3.)核心算法细节:

  1. TSCD:通过将时间步分为多个段,每个段内执行一致性蒸馏,然后逐步减少段数,最终实现全时一致性。
  2. 教师-学生模型:在蒸馏过程中,使用教师模型(ftea)和学生模型(fstu)来训练学生模型,以近似教师模型的流位置。
  3. 人类反馈学习:包括奖励模型训练和偏好微调两个阶段,使用人类偏好数据对奖励模型进行训练,然后利用该模型对去噪图像进行评分,以此来微调扩散模型。
  4. 一步生成增强:使用优化的分布匹配蒸馏(DMD)技术来提升一步生成的性能,结合均方误差(MSE)损失和人类反馈学习技术。

4.)实验和评估:

  • 使用了LAION和COYO数据集的子集进行训练。
  • 与现有的加速方案进行了定量和定性比较,证明了Hyper-SD在少步推理中的优势。
  • 进行了广泛的用户研究,以更准确地评估性能。

5.)讨论和局限性:

  • 论文讨论了未来的改进方向,包括保留CFG特性、定制人类反馈优化和探索扩散变换器架构(DIT)。

三、结论:

        Hyper-SD通过结合轨迹保持和轨迹重构的蒸馏技术,实现了在少步推理中的高性能图像生成,为生成AI社区的发展提供了推动力。论文还提供了一些量化的比较结果,展示了Hyper-SD在不同指标上相比于其他方法的优势。此外,论文开源了从1到8步推理的LoRA插件,以及一个专门的一步SDXL模型,以促进生成AIGC社区的发展。

这篇关于一步成像:Hyper-SD在图像合成中的创新与应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/972987

相关文章

PostgreSQL简介及实战应用

《PostgreSQL简介及实战应用》PostgreSQL是一种功能强大的开源关系型数据库管理系统,以其稳定性、高性能、扩展性和复杂查询能力在众多项目中得到广泛应用,本文将从基础概念讲起,逐步深入到高... 目录前言1. PostgreSQL基础1.1 PostgreSQL简介1.2 基础语法1.3 数据库

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N

Python中yield的用法和实际应用示例

《Python中yield的用法和实际应用示例》在Python中,yield关键字主要用于生成器函数(generatorfunctions)中,其目的是使函数能够像迭代器一样工作,即可以被遍历,但不会... 目录python中yield的用法详解一、引言二、yield的基本用法1、yield与生成器2、yi

Python多线程应用中的卡死问题优化方案指南

《Python多线程应用中的卡死问题优化方案指南》在利用Python语言开发某查询软件时,遇到了点击搜索按钮后软件卡死的问题,本文将简单分析一下出现的原因以及对应的优化方案,希望对大家有所帮助... 目录问题描述优化方案1. 网络请求优化2. 多线程架构优化3. 全局异常处理4. 配置管理优化优化效果1.

从基础到高阶详解Python多态实战应用指南

《从基础到高阶详解Python多态实战应用指南》这篇文章主要从基础到高阶为大家详细介绍Python中多态的相关应用与技巧,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、多态的本质:python的“鸭子类型”哲学二、多态的三大实战场景场景1:数据处理管道——统一处理不同数据格式

Java Stream 的 Collectors.toMap高级应用与最佳实践

《JavaStream的Collectors.toMap高级应用与最佳实践》文章讲解JavaStreamAPI中Collectors.toMap的使用,涵盖基础语法、键冲突处理、自定义Map... 目录一、基础用法回顾二、处理键冲突三、自定义 Map 实现类型四、处理 null 值五、复杂值类型转换六、处理

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

使用IDEA部署Docker应用指南分享

《使用IDEA部署Docker应用指南分享》本文介绍了使用IDEA部署Docker应用的四步流程:创建Dockerfile、配置IDEADocker连接、设置运行调试环境、构建运行镜像,并强调需准备本... 目录一、创建 dockerfile 配置文件二、配置 IDEA 的 Docker 连接三、配置 Do

深入浅出SpringBoot WebSocket构建实时应用全面指南

《深入浅出SpringBootWebSocket构建实时应用全面指南》WebSocket是一种在单个TCP连接上进行全双工通信的协议,这篇文章主要为大家详细介绍了SpringBoot如何集成WebS... 目录前言为什么需要 WebSocketWebSocket 是什么Spring Boot 如何简化 We