解决由NVCC编译优化所产生的Bug

2024-03-09 06:04

本文主要是介绍解决由NVCC编译优化所产生的Bug,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Bug描述

在测量如下一个简单的核函数的执行时间的时候,发现测量的时间和循环的次数完全无关,觉得很奇怪,因为循环的次数已经很大了,不管我再怎么提升循环次数,这么大的计算量,不可能保持时间的恒定。

__global__ void setRowReadRow(int * out)
{unsigned int idx=threadIdx.y*blockDim.x+threadIdx.x;for(unsigned int l0=0; l0<65536; l0++)for(unsigned int l1=0; l1<65536; l1++)for(unsigned int l2=0; l2<65536; l2++)for(unsigned int l3=0; l3<65536; l3++)for(unsigned int m=0; m<65536; m++){out[idx] +=  m  ;}
}

于是去查看该Kernel的PTX代码,发现该函数主体只有一条ret指令,用于函数返回,没有任何计算过程:

.visible .entry setRowReadRow(int*)(.param .u64 setRowReadRow(int*)_param_0
)
{ret;}

这就解释得通为什么执行时间不变了,于是尝试调小循环次数,只保留变量m这一层嵌套,此时PTX代码如下:

.visible .entry setRowReadRow(int*)(.param .u64 setRowReadRow(int*)_param_0
)
{ld.param.u64    %rd1, [setRowReadRow(int*)_param_0];cvta.to.global.u64      %rd2, %rd1;mov.u32         %r1, %tid.y;mov.u32         %r2, %ntid.x;mov.u32         %r3, %tid.x;mad.lo.s32      %r4, %r1, %r2, %r3;mul.wide.u32    %rd3, %r4, 4;add.s64         %rd4, %rd2, %rd3;ld.global.u32   %r5, [%rd4];add.s32         %r6, %r5, 2147450880;st.global.u32   [%rd4], %r6;ret;}

这里不解释每条指令的具体含义了,可以用GPT等大模型帮忙翻译一下,重点解释这两条指令:

        add.s32         %r6, %r5, 2147450880;st.global.u32   [%rd4], %r6;

%r5保存的是out[idx]的原始值,%rd4保存的是out[idx]在内存中的地址,所以这两条指令的意思就是out[idx]加上2147450880的值再存回去。

因为这部分代码只保留了m变量所在的那一层循环,分析可得,Kernel函数得到的结果就是把out[idx]的值再加上(0+1+2+3+…+65535)=2147450880。

很显然,编译器帮我们做了优化,把65536次循环加法变成了一次加法指令,再加上英伟达官方论坛的解答可以大致推测出,循环次数过多导致PTX代码只有一条ret指令的原因是编译器在做优化时,把循环的加法拿出去计算,导致了溢出了所以产生了不可预期的错误。

但是测试的时候发现把加法改成乘法后不会产生ret错误,分析ptx是因为对于乘法没有做这方面的优化,老老实实按照循环嵌套写的PTX代码,所以此时虽然out[idx]的计算会出现溢出,但是并不影响程序的运行。加法由于编译器会对循环优化,所以出现PTX的异常。

这篇关于解决由NVCC编译优化所产生的Bug的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/789730

相关文章

解决IDEA报错:编码GBK的不可映射字符问题

《解决IDEA报错:编码GBK的不可映射字符问题》:本文主要介绍解决IDEA报错:编码GBK的不可映射字符问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录IDEA报错:编码GBK的不可映射字符终端软件问题描述原因分析解决方案方法1:将命令改为方法2:右下jav

MyBatis模糊查询报错:ParserException: not supported.pos 问题解决

《MyBatis模糊查询报错:ParserException:notsupported.pos问题解决》本文主要介绍了MyBatis模糊查询报错:ParserException:notsuppo... 目录问题描述问题根源错误SQL解析逻辑深层原因分析三种解决方案方案一:使用CONCAT函数(推荐)方案二:

IntelliJ IDEA 中配置 Spring MVC 环境的详细步骤及问题解决

《IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决》:本文主要介绍IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决,本文分步骤结合实例给大... 目录步骤 1:创建 Maven Web 项目步骤 2:添加 Spring MVC 依赖1、保存后执行2、将新的依赖

Spring 中的循环引用问题解决方法

《Spring中的循环引用问题解决方法》:本文主要介绍Spring中的循环引用问题解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录什么是循环引用?循环依赖三级缓存解决循环依赖二级缓存三级缓存本章来聊聊Spring 中的循环引用问题该如何解决。这里聊

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

SpringBoot项目中报错The field screenShot exceeds its maximum permitted size of 1048576 bytes.的问题及解决

《SpringBoot项目中报错ThefieldscreenShotexceedsitsmaximumpermittedsizeof1048576bytes.的问题及解决》这篇文章... 目录项目场景问题描述原因分析解决方案总结项目场景javascript提示:项目相关背景:项目场景:基于Spring

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

最详细安装 PostgreSQL方法及常见问题解决

《最详细安装PostgreSQL方法及常见问题解决》:本文主要介绍最详细安装PostgreSQL方法及常见问题解决,介绍了在Windows系统上安装PostgreSQL及Linux系统上安装Po... 目录一、在 Windows 系统上安装 PostgreSQL1. 下载 PostgreSQL 安装包2.

Mysql如何解决死锁问题

《Mysql如何解决死锁问题》:本文主要介绍Mysql如何解决死锁问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录【一】mysql中锁分类和加锁情况【1】按锁的粒度分类全局锁表级锁行级锁【2】按锁的模式分类【二】加锁方式的影响因素【三】Mysql的死锁情况【1

SpringBoot内嵌Tomcat临时目录问题及解决

《SpringBoot内嵌Tomcat临时目录问题及解决》:本文主要介绍SpringBoot内嵌Tomcat临时目录问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录SprinjavascriptgBoot内嵌Tomcat临时目录问题1.背景2.方案3.代码中配置t