InstantID:一张照片,无需训练,秒级个人写真生成

2024-02-05 00:28

本文主要是介绍InstantID:一张照片,无需训练,秒级个人写真生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 引言

InstantID是一种基于扩散模型的强大解决方案。设计的即插即用模块仅使用单个面部图像就能熟练地处理各种风格的图像个性化,同时确保高保真度。它的核心是设计了一个新颖的 IdentityNet,通过强加语义和弱空间条件,将面部和地标图像与文本提示相结合来引导图像生成。

仅给定一张参考 ID 图像,InstantID 的目标是从单个参考 ID 图像生成具有各种姿势或风格的定制图像,同时确保高保真度。它包含三个关键组成部分:

  • 捕获语义人脸信息的 ID 嵌入;
  • 具有解耦交叉注意力的轻量级适配模块,方便使用图像作为视觉提示
  • IdentityNet,通过额外的空间控制对参考面部图像的详细特征进行编码
    在这里插入图片描述

2. InstantID功能介绍

功能1:一张人脸生成任意风格的图片

在这里插入图片描述
在这里插入图片描述

功能2:可编辑性

通过文本提示词来编辑生成的图片,比如改变图像中人物的表情、背景或其他元素。也可以借助 ControlNet插件更加精准地控制图像的生成细节,实现个性化定制。
在这里插入图片描述

功能3:多重参考

允许使用多张参考图像来生成一个新图像,从而增强生成图像的丰富性和多样性。
在这里插入图片描述
对于多个参考图像,取 ID 嵌入的平均平均值作为图像提示。即使只有一张参考图像,InstantID 也能取得良好的结果。
在这里插入图片描述
InstantID 也可以灵活支持将身份属性添加到非人类角色中。

3. InstantID与同类产品比较

比较1:InstantID 与 IP-Adapter/IP-Adapter-FaceID/PhotoMaker

在这里插入图片描述
与 IP-Adapter (IPA)、IP-Adapter-FaceID 和最新的 PhotoMaker 进行比较。其中,PhotoMaker需要训练UNet的LoRA参数。可以看到,PhotoMaker和IP-Adapter-FaceID都实现了良好的保真度,但文本控制能力有明显的退化。相比之下,InstantID 实现了更好的保真度并保留了良好的文本可编辑性(面孔和样式更好地融合)。

比较2:InstantID与LORA

在这里插入图片描述
InstantID无需任何训练就可以像 LoRA 一样取得有竞争力的效果。

比较3:InstantID与InsightFace Swapper

在这里插入图片描述
在非写实风格中,InstantID在面部和背景的融合上更加灵活。

4. InstantID使用体验

下面我们在huggingface网站上面使用体验一下。
在这里插入图片描述
在最上面有操作步数说明,核心操作只需要4步。

【第一步】:个人图片的上传

对于多人图像,我们将只检测最大的脸。确保脸部不要太小,没有明显的遮挡或模糊。

比如我们这里上传一张紫霞仙子的照片。
在这里插入图片描述
【第二步】: (可选) 上传另一个人的图像作为参考姿势

如果没有上传,我们将使用第一人称图像提取地标。如果在步骤1中使用裁剪过的脸,建议上传它来提取一个新的姿势。

【第三步】:提示词的编写

提示词:A beautiful woman was sitting on the grass in the park
在这里插入图片描述
【第四步】:图片的生成

我们先选择不同的风格,然后点击"Submit"按钮,就可以生成图片了。我们这里看一下不同风格的图片效果。

风格1:WaterColor(水彩)
在这里插入图片描述
从生产图片效果来看,人物图像保持得非常统一,和原图片的相似度非常高。

相关说明
(1)如果对相似度不满意,可以适当增加controlnet_conditioning_scale (IdentityNet)和ip_adapter_scale (Adapter)的权重。
在这里插入图片描述
(2)如果生成的图像过度饱和,请减小 ip_adapter_scale的权重。如果不起作用,请减小controlnet_conditioning_scale的权重。

(3)如果文本提示词不符合预期,减小ip_adapter_scale的权重。

(4)选择一个好的基本模型是很重要的。

这篇关于InstantID:一张照片,无需训练,秒级个人写真生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/679251

相关文章

k8s admin用户生成token方式

《k8sadmin用户生成token方式》用户使用Kubernetes1.28创建admin命名空间并部署,通过ClusterRoleBinding为jenkins用户授权集群级权限,生成并获取其t... 目录k8s admin用户生成token创建一个admin的命名空间查看k8s namespace 的

Vue3 如何通过json配置生成查询表单

《Vue3如何通过json配置生成查询表单》本文给大家介绍Vue3如何通过json配置生成查询表单,本文结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录功能实现背景项目代码案例功能实现背景通过vue3实现后台管理项目一定含有表格功能,通常离不开表单

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

C#使用Spire.XLS快速生成多表格Excel文件

《C#使用Spire.XLS快速生成多表格Excel文件》在日常开发中,我们经常需要将业务数据导出为结构清晰的Excel文件,本文将手把手教你使用Spire.XLS这个强大的.NET组件,只需几行C#... 目录一、Spire.XLS核心优势清单1.1 性能碾压:从3秒到0.5秒的质变1.2 批量操作的优雅

Python使用python-pptx自动化操作和生成PPT

《Python使用python-pptx自动化操作和生成PPT》这篇文章主要为大家详细介绍了如何使用python-pptx库实现PPT自动化,并提供实用的代码示例和应用场景,感兴趣的小伙伴可以跟随小编... 目录使用python-pptx操作PPT文档安装python-pptx基础概念创建新的PPT文档查看

在ASP.NET项目中如何使用C#生成二维码

《在ASP.NET项目中如何使用C#生成二维码》二维码(QRCode)已广泛应用于网址分享,支付链接等场景,本文将以ASP.NET为示例,演示如何实现输入文本/URL,生成二维码,在线显示与下载的完整... 目录创建前端页面(Index.cshtml)后端二维码生成逻辑(Index.cshtml.cs)总结

Python实现数据可视化图表生成(适合新手入门)

《Python实现数据可视化图表生成(适合新手入门)》在数据科学和数据分析的新时代,高效、直观的数据可视化工具显得尤为重要,下面:本文主要介绍Python实现数据可视化图表生成的相关资料,文中通过... 目录前言为什么需要数据可视化准备工作基本图表绘制折线图柱状图散点图使用Seaborn创建高级图表箱线图热

SQLServer中生成雪花ID(Snowflake ID)的实现方法

《SQLServer中生成雪花ID(SnowflakeID)的实现方法》:本文主要介绍在SQLServer中生成雪花ID(SnowflakeID)的实现方法,文中通过示例代码介绍的非常详细,... 目录前言认识雪花ID雪花ID的核心特点雪花ID的结构(64位)雪花ID的优势雪花ID的局限性雪花ID的应用场景