每日AIGC最新进展(54):中科大提出Pose引导的图像生成模型、韩国科技学院提出发型控制模型、北大提出风格生成数据集CSGO

本文主要是介绍每日AIGC最新进展(54):中科大提出Pose引导的图像生成模型、韩国科技学院提出发型控制模型、北大提出风格生成数据集CSGO,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Diffusion Models专栏文章汇总:入门与实战

GRPose: Learning Graph Relations for Human Image Generation with Pose Priors

在过去的研究中,基于扩散模型的人工生成技术在根据特定条件合成高质量人像方面取得了显著进展。然而,尽管之前的方案引入了姿势先验,现有方法仍然在高质量图像生成和稳定的姿势对齐上存在不足。为了解决这些问题,我们提出了一种新框架——图关系姿势(GRPose),通过建立姿势先验的图拓扑结构,深度挖掘姿势部件之间的内在关联。我们的核心创新在于设计了一种渐进式图集成器(PGI),利用图卷积网络(GCNs)有效捕捉不同姿势部件之间的高阶关系。此外,我们还引入了一种新颖的姿势感知损失,旨在进一步提升生成图像与给定姿势之间的对齐质量。实验结果表明,GRPose在多个基准数据集上表现优越,相较于最新的基准模型,其姿势平均精度提高了9.98%。

我们的GRPose框架主要由三个部分组成:扩散管道、图姿势适配器和姿势感知损失。首先,利用CLIP文本编码器将文本提示转换为嵌入形式,作为生成输入。在扩散网络中,使用稳定扩散(Stable Diffusion)作为基础模型,结合了变分自编码器(VAE)进行图像的编码和解码,以及使用U-Net进行噪声估计。我们的PGI将姿势先验与潜在表示的每个空间点视为图的节点,通过K近邻搜索算法构建图结构。接着,通过图卷积网络聚合不同节点的信息,增强图中各节点间的关联性更新其特征,最终通过融合层捕捉姿势与图像潜在特征间的交互关系。随后,引入的姿势感知损失利用预训练的姿势估计网络,监测生成图像与原始图像之间的姿势差异,以最大限度降低这种差异,确保生成的人像与指定姿势的一致性。

我们在Human-Art和LAION-Human数据集上进行了广泛的定性和定量实验,以评估GRPose的性能。在Human-Art数据集上,我们的模型达到了49.50%的平均精度(AP)和70.84%的相似度平均精度(SAP),相较于ControlNet显著提升了9.98%。在LAION-Human数据集中,GRPose同样表现出色,AP提高了6.06%。通过与其他最先进的方法进行比较,我们的实验表明GRPose实现了更好的姿势对齐和图像质量。特别是在多姿势生成的测试中,GRPose显示了优越的性能,不仅维护了生成图像的清晰度,还保证了姿势的一致性。综合各项指标,GRPose在多个评价标准下均超过了现有主流方法的表现,从而突出其在姿势引导人像生成中的应用潜力。

What to Preserve and What to Transfer: Faithful, Identity-Preserving Diffusion-based Hairstyle Transfer

本研究提出了名为HairFusion的创新发型转移模型,旨在实现高保真、身份保持的发型图像处理。发型转移是一项挑战性任务,其目标是在保持人脸图像身份、衣物和背景特征的同时,将参考发型应用于输入的脸部图像。现有的办法多基于预训练的StyleGAN模型,通常难以处理真实场景中的复杂条件,例如显著的头部姿势变化和不同的焦距。HairFusion通过一种一阶段的扩散模型方法来克服这些限制,采用hair-agnostic表示作为输入,确保模型在处理多样化面孔时的有效性。同时,引入了头发对齐交叉注意力模块(Align-CA),以改进发型与面孔的对齐能力,并使用自适应发型混合技术在推理过程中保持面孔图像中的原始特征。这种方法展示了其在发型转移任务中的优秀表现,表现优于现有的插值和扩散模型方法。

HairFusion模型采用了前所未有的头发对齐交叉注意力模块(Align-CA),用于处理输入图像的hair-agnostic表示,并有效地消除原始发型信息。在处理过程中,Align-CA借助人脸轮廓编码器对输入的发型图像和目标面部图像之间的关系进行对齐,以应对面部形状和姿势的差异。通过精确提取每个图像的特征图,Align-CA将参考发型的特征作为键(K)和值(V),同时将面部图像的特征作为查询(Q),增强系统在不同头部姿势和面部形状间的适应能力。为了进一步改善图像输出的质量,研究者们设计了一种自适应发型混合技术,通过分析交叉注意力图,确定头发区域与非头发区域之间的对应关系,进而有效保留源面孔的细节和其余特征。该技术使HairFusion在转移发型的同时,尽量减少原图样本的特征丢失,从而提高生成图像的真实性。

CSGO: Content-Style Composition in Text-to-Image Generation

本研究围绕文本到图像生成中的内容风格合成(CSGO)展开,提出了一种新的方法以优化图像风格迁移过程。尽管现有的扩散模型在控制图像生成方面表现出色,但图像风格迁移仍然是一个具有挑战性的领域,主要因为多样化的风格和有限的数据集。本研究开发了一种数据构建流程,该流程能够自动生成并清理内容风格图像三元组(CSSIT),并成功构建了一个名为IMAGStyle的大规模数据集,包含210,000个图像三元组。此外,提出的CSGO模型采用了端到端训练策略,通过独立的特征注入模块,有效地分离了内容和风格特征,从而提高了图像风格迁移的质量和控制能力。研究结果显示,CSGO在多种视觉任务中均实现了卓越的性能。

为验证所提出的方法的有效性,本研究进行了大量实验,评估CSGO模型在风格控制和内容保留方面的性能。使用IMAGStyle数据集进行训练,并对比了多种最新的方法,包括StyleID、InstantStyle等。在图像驱动的风格迁移任务中,CSGO展现了最高的样式相似性得分(CSD),同时保持了较低的内容丢失评分(CAS),表明其在风格控制方面的强大能力。此外,在文本驱动样式生成和文本编辑样例合成任务中,CSGO同样表现出优越的控制特性,能更准确地遵循文本提示并生成相应风格的图像。实验结果充分验证了IMAGStyle数据集和CSGO框架在图像风格迁移中的重要作用,鼓励后续更多研究探索该领域。

这篇关于每日AIGC最新进展(54):中科大提出Pose引导的图像生成模型、韩国科技学院提出发型控制模型、北大提出风格生成数据集CSGO的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1125978

相关文章

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础(单文件 YAML 版)(一)配置原理与优势(二)实操示例二、多环境开发多文件版

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

MySQL中查询和展示LONGBLOB类型数据的技巧总结

《MySQL中查询和展示LONGBLOB类型数据的技巧总结》在MySQL中LONGBLOB是一种二进制大对象(BLOB)数据类型,用于存储大量的二进制数据,:本文主要介绍MySQL中查询和展示LO... 目录前言1. 查询 LONGBLOB 数据的大小2. 查询并展示 LONGBLOB 数据2.1 转换为十

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I

Java整合Protocol Buffers实现高效数据序列化实践

《Java整合ProtocolBuffers实现高效数据序列化实践》ProtocolBuffers是Google开发的一种语言中立、平台中立、可扩展的结构化数据序列化机制,类似于XML但更小、更快... 目录一、Protocol Buffers简介1.1 什么是Protocol Buffers1.2 Pro