controlnet前向代码解析

2024-03-21 16:10

本文主要是介绍controlnet前向代码解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ControlNet|使用教程 各模型算法说明以及使用解析 - openAI本本介绍了如何在Stable Diffusion中使用ControlNet生成高质量图片的方法,包括骨骼提取、边缘线处理、引导设置、语义分割、涂鸦等功能的详细介绍,帮助用户快速上手使用ControlNet。https://openai.wiki/controlnet-guide.htmlcldm:controlnet版本的ldm

apply_uniformer=Uniformerdetector()
model=create_model('')
model.load_state_dict(load_state_dict('',location='cuda'))
ddim_sampler=DDIMSampler(model) 默认ddimimg:输入图片
prompt:
a_prompt:默认的好的prompt
n_prompt: 负面prompt
num_sample: 出几张图
image_resolution: 对controlnet中输入的图片进行最长边等比resize
detect_resolution: 
ddim_steps: 采样步数,一般20-30,值越大越精细
guess_mode:可以不写提示词
strength(control scales):  这里就是对应webui中的weights,代表controlnet生成图片的权重占比
影响,在controlnet代码中表示13步中control侧的影响,一共13个网络control侧weights=0,即不对
原始的sd进行梯度更新,但是如果对cond中的c_concat设为None,则默认不使用control,不会触发weights,
优先级高一点
guidance scale:   在webui中的这个参数是guidance和cfg有关系, 
1,中文为强度引导,在理解此功能之前,应该知道生成图片的步数功能,步数代表生成一张图片刷新计算
多少次,假设你设置的生成步数为20步,引导强度设置为1时,代表这20步中的每1步都会被controlnet
引导1次,个人认为强度数值为1,效果最佳。  
在contrilnet作者代码中是如下作用:
if unconditional_conditioning is None or unconditional_guidance_scale == 1.:model_output = self.model.apply_model(x, t, c)
else:model_t = self.model.apply_model(x, t, c)model_uncond = self.model.apply_model(x, t, unconditional_conditioning)model_output = model_uncond + unconditional_guidance_scale * (model_t - model_uncond)process->
input_image=HWC3(input_image)->
detected_map=apply_uniformer(resize_image(input_image,detect_resolution))->
detected_img=cv2.resize(detected_map)->
control=torch.from_numpy(detected_img)->cond={'c_concat':[control],'c_crossattn':
[model.get_learned_conditioning([prompt+a_prompt])]}->
un_cond={'c_concat':[None if guess_mode else [control],
'c_crossattn':[model.get_learned_conditioning([n_prompt])]]}->
model.control_scales=[strength*(0.825**float(12-i)) for i in range(13)] 
if guess_mode else ([strength]*13)->
samples,_=ddim_sampler.sample(ddim_steps,num_samples,shape,cond,verbose=False,
eta=eta,unconditional_guidance_scale=scale,unconditional_conditioning=uncond)->
= make_schedule(ddim_num_steps=ddim_steps,ddim_eta=eta)->
== ddim_timesteps=make_ddim_timesteps()->
= samplers,intermediates=ddim_sampler(condition,size...unconditional_guidance_scale,
unconditional_conditioning)->
== img=torch.randn(shape)->
== ts=torch.full((b,),step,device)->
== timesteps=ddpm_num_timesteps->
== outs=p_sample_ddim(img,cond,ts,...)->
=== model_t=model.apply_model(x(img),t(ts),c(cond))->
- diffusion_model=model.diffusion_model->
- cond_txt=torch.cat(cond['c_crossattn',1])->
- control=control_model(x_noisy,hint=torch.cat(cond['c_concat'],1),t,cond_txt)->
-- t_emb=timestep_embedding(timesteps,model_channels,repeat_only=False)->
-- emb=time_embed(t_embed)->
-- guided_hint=TimestepEmbedSequential(hint,emd,context)->
-- input_blocks,sero_convs->
-- h=middle_block(h,emb,context)->
-- outs.append(middle_block_out(h,emb,context))->
- control=[c*scale for c,scale in zip(control,control_scales)]->
- eps=diffusion_model(x_noisy,t,cond_txt,control,only_mid_control)->
-- t_emb=timestep_embedding(timesteps,model_channels,repeat_only)->
-- emb=time_embed(t_emb)->
-- h=module(h,emb,context)->
-- h=middle_block(h,emb,context)->
-- only_mid_control->只在中间阶段添加control,但是control=None,则都不添加->
-- h=torch.cat([h,hs.pop()+control.pop()],dim=1)->
-- h=module(h,emb,context)->
-- out(h)->
=== model_uncond=model.apply_model(x,t,unconditional_conditioning)->
=== model_output=model_uncond+unconditional_guidance_scale*(model_t-model_uncond)->
=== pred_x0,-,-=model.first_stage_model.quantize(pred_x0)->
x_samples=model.decode_first_stage(samples) vae中的decode部分->
= z=1./scale_factor*z->
= first_stage_model.decode(z)->
== z = post_quant_conv(z)->
== dec=decoder(z)->
x_samples=(einops.rearrange(x_samples,'b c h w -> b h w c')*127.5+127.5)
.cpu().numpy().clip(0,255).astype(np/unint8)->
results

要分析下controlnet的yaml文件,在params中分成了4个部分,分别是control_stage_config、unnet_config、first_stage_config、cond_stage_config。其中control_stage_config对应的是13层的controlnet,unet_config对应的是diffusion model,first_stage_config对应的是vae中的decode部分。

因此当control=None时,就是webui中的sd1.5/2.1。

这篇关于controlnet前向代码解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833143

相关文章

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

一文解析C#中的StringSplitOptions枚举

《一文解析C#中的StringSplitOptions枚举》StringSplitOptions是C#中的一个枚举类型,用于控制string.Split()方法分割字符串时的行为,核心作用是处理分割后... 目录C#的StringSplitOptions枚举1.StringSplitOptions枚举的常用

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

MyBatis延迟加载与多级缓存全解析

《MyBatis延迟加载与多级缓存全解析》文章介绍MyBatis的延迟加载与多级缓存机制,延迟加载按需加载关联数据提升性能,一级缓存会话级默认开启,二级缓存工厂级支持跨会话共享,增删改操作会清空对应缓... 目录MyBATis延迟加载策略一对多示例一对多示例MyBatis框架的缓存一级缓存二级缓存MyBat

前端缓存策略的自解方案全解析

《前端缓存策略的自解方案全解析》缓存从来都是前端的一个痛点,很多前端搞不清楚缓存到底是何物,:本文主要介绍前端缓存的自解方案,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、为什么“清缓存”成了技术圈的梗二、先给缓存“把个脉”:浏览器到底缓存了谁?三、设计思路:把“发版”做成“自愈”四、代码

Java集合之Iterator迭代器实现代码解析

《Java集合之Iterator迭代器实现代码解析》迭代器Iterator是Java集合框架中的一个核心接口,位于java.util包下,它定义了一种标准的元素访问机制,为各种集合类型提供了一种统一的... 目录一、什么是Iterator二、Iterator的核心方法三、基本使用示例四、Iterator的工

Java 线程池+分布式实现代码

《Java线程池+分布式实现代码》在Java开发中,池通过预先创建并管理一定数量的资源,避免频繁创建和销毁资源带来的性能开销,从而提高系统效率,:本文主要介绍Java线程池+分布式实现代码,需要... 目录1. 线程池1.1 自定义线程池实现1.1.1 线程池核心1.1.2 代码示例1.2 总结流程2. J

JS纯前端实现浏览器语音播报、朗读功能的完整代码

《JS纯前端实现浏览器语音播报、朗读功能的完整代码》在现代互联网的发展中,语音技术正逐渐成为改变用户体验的重要一环,下面:本文主要介绍JS纯前端实现浏览器语音播报、朗读功能的相关资料,文中通过代码... 目录一、朗读单条文本:① 语音自选参数,按钮控制语音:② 效果图:二、朗读多条文本:① 语音有默认值:②