深入URP之Shader篇16: UNITY_BRANCH和UNITY_FLATTEN

2024-06-01 15:36

本文主要是介绍深入URP之Shader篇16: UNITY_BRANCH和UNITY_FLATTEN,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Shader中的if分支

我们在shader中写if语句,例如:

if(a>0){//do some cool thing
}else{//do other cool thing
}

实际上,编译器会进行优化,以及处理成多种不同的情况。比如编译器会将if和else展开,分别执行其中的代码,然后根据测试条件选择一个结果,这被称为Flatten。或者编译器会真的编译出if指令,真正的动态分支。这取决于平台是否支持。比如在老的OpenGL ES 2.0平台,编译器总是进行Flatten,所以if分支才被视作性能杀手。当然即便是没有Flatten,真正的动态分支由于会让同一个Warp中的线程不能同步执行而互相等待,也会造成性能问题。在DX11中,编译器支持[branch][flatten]指令,这样就可以主动选择是flatten还是真动态分支了:

[branch] if(x)
{x = sqrt(x);
}
[flatten] if(x) 
{ x = sqrt(x); 
}

具体参考:https://docs.microsoft.com/en-us/windows/win32/direct3dhlsl/dx-graphics-hlsl-if

  • 另外,如果if中的测试条件是uniform,这样编译器也是可以安全的优化为只执行一个分支的代码的,效率和没有分支一样。

  • 关于shader分支优化还有很多的说法,比如使用lerp,以及使用一些特殊的函数计算来代替分支,还有三元运算符等等,但是随着硬件平台和编译器的发展,一些方法已经不能优化,甚至反而是负优化了,这儿就不展开了(其实是我也没完全弄明白)。本文只想说一下Unity shader中,对于flatten和branch的处理。

UNITY_BRANCH和UNITY_FLATTEN

由于Unity Shader是跨平台的,不仅仅是DX系列的HLSL,还支持OpenGL, Metal, Vulkan等平台的Shader,因此对branch和flatten进行了包装,也就是UNITY_BRANCHUNITY_FLATTEN。例如:

UNITY_BRANCH
if (screenPos.x < 0.5) {
// run expensive code A
} else {
// run expensive code B
}
UNITY_FLATTEN
if (screenPos.x < 0.5) {
// run expensive code A
} else {
// run expensive code B
}
  • 使用UNITY_BRANCH时,if分支只会执行满足条件的那个分支,而使用UNITY_FLATTEN两种情况都需要执行。看起来我们应该总使用branch,但是branch指令本身也是有消耗的,如果if两边的操作都比较简单,使用branch反而可能得不偿失。

  • 在OpenGL中,其实是没有branch指令的,编译器会自己选择是否flatten。以及上面说过的GLES 2.0,直接就只有flatten。所以这个指令只是一个hint,具体还是要看平台。

branch不能使用的一种情况

fixed4 color = fixed4(0,0,0,0);
UNITY_BRANCH
if (screenPos.x > 0.5) {float2 uv = screenPos * 2.0;color = tex2D(_MyTex, uv);
}

这儿调用tex2D会产生错误,因为 tex2D 会使用uv的导数(即一个像素到另一个像素的变化值)去决定mip map的级别,但是由于这儿的 uv 只在if分支中计算,这不能保证可以计算出导数(因为导数需要邻近像素的数据)。修改方法如下:

fixed4 color = fixed4(0,0,0,0);
float2 uv = screenPos * 2.0;
if (screenPos.x > 0.5) {color = tex2D(_MyTex, uv);
}

URP中使用UNITY_BRANCH的地方

color grading

        UNITY_BRANCHif (userLutContrib > 0.0){input.rgb = LinearToSRGB(input.rgb); // In LDR do the lookup in sRGB for the user LUThalf3 outLut = ApplyLut2D(TEXTURE2D_ARGS(userLutTex, userLutSampler), input, userLutParams);input = lerp(input, outLut, userLutContrib);input.rgb = SRGBToLinear(input.rgb);}

因为if中需要采样LUT贴图,如果不是动态分支,不使用 userLut的情况下也会执行这个代码,代价就太大了。

附加光realtime阴影

    // We have to branch here as otherwise we would sample buffer with lightIndex == -1.// However this should be ok for platforms that store light in SSBO.UNITY_BRANCHif (lightIndex < 0)return 1.0;float4 shadowCoord = mul(_AdditionalShadowsBuffer[lightIndex].worldToShadowMatrix, float4(positionWS, 1.0));
#elsefloat4 shadowCoord = mul(_AdditionalLightsWorldToShadow[lightIndex], float4(positionWS, 1.0));
#endifhalf4 shadowParams = GetAdditionalLightShadowParams(lightIndex);return SampleShadowmap(TEXTURE2D_ARGS(_AdditionalLightsShadowmapTexture, sampler_AdditionalLightsShadowmapTexture), shadowCoord, shadowSamplingData, shadowParams, true);

这个代码注释也说了,必须branch,否则就会多采样shadow map。

参考资料

  • https://forum.unity.com/threads/correct-use-of-unity_branch.476804/
  • https://zhuanlan.zhihu.com/p/122467342
  • https://docs.microsoft.com/en-us/windows/win32/direct3dhlsl/dx-graphics-hlsl-if
  • https://zhuanlan.zhihu.com/p/525931936

这篇关于深入URP之Shader篇16: UNITY_BRANCH和UNITY_FLATTEN的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1021403

相关文章

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

深入解析C++ 中std::map内存管理

《深入解析C++中std::map内存管理》文章详解C++std::map内存管理,指出clear()仅删除元素可能不释放底层内存,建议用swap()与空map交换以彻底释放,针对指针类型需手动de... 目录1️、基本清空std::map2️、使用 swap 彻底释放内存3️、map 中存储指针类型的对象

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

C#和Unity中的中介者模式使用方式

《C#和Unity中的中介者模式使用方式》中介者模式通过中介者封装对象交互,降低耦合度,集中控制逻辑,适用于复杂系统组件交互场景,C#中可用事件、委托或MediatR实现,提升可维护性与灵活性... 目录C#中的中介者模式详解一、中介者模式的基本概念1. 定义2. 组成要素3. 模式结构二、中介者模式的特点

深入理解go中interface机制

《深入理解go中interface机制》本文主要介绍了深入理解go中interface机制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录前言interface使用类型判断总结前言go的interface是一组method的集合,不

深入解析Java NIO在高并发场景下的性能优化实践指南

《深入解析JavaNIO在高并发场景下的性能优化实践指南》随着互联网业务不断演进,对高并发、低延时网络服务的需求日益增长,本文将深入解析JavaNIO在高并发场景下的性能优化方法,希望对大家有所帮助... 目录简介一、技术背景与应用场景二、核心原理深入分析2.1 Selector多路复用2.2 Buffer

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和