【pytorch】mmdetection 做eval / test时弹出OOM(Out of Memory / CUDA out of memory)的解决过程记录

2023-11-27 21:30

本文主要是介绍【pytorch】mmdetection 做eval / test时弹出OOM(Out of Memory / CUDA out of memory)的解决过程记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题描述:

在用cascade RCNN进行训练的过程中,是不会发生OOM的,但是在做eval的时候(数据没有shuffle),每次做到第6批次数据的时候就会出现OOM如下图所示:
请添加图片描述

解决思路总结:

解决思路1: 调低batch_size
解决思路2:每次训练完清空cuda缓存
解决思路3:降低做预测时模型筛选出的预测框的数量
解决思路4:做eval时,把预测框的处理程序放在cpu和内存中


解决思路1:调低batch_size

调低batch_size到1的时候并不能解决这个问题,只会在训练的时候,显存占用稍微低一些。

结果:

还是解决不了问题

做训练的时候会发现一个问题,随着训练过程的进行,训练占用的显存越来越多。

分析:

因此想,会不会在昨晚训练之后清空一下cuda的缓存,做eval就不会超出显存OOM了? 下一个解决该问题的思路是在,清空cuda缓存上。


解决思路2:每次训练完清空cuda的缓存

清空cuda缓存可以用torch.cuda.empty_cache(),但是该代码加在哪里,也是一个问题。

可以看到报错提示红框的部分,中文翻译过来就是“训练完一个epoch之后要做的事情”:
在这里插入图片描述
pytorch有hook机制,并且mmdetection封装了许多API,在调用函数建立模型的时候方便,但是需要寻找对应代码去修改比较麻烦。

找"after_train_epoch"函数比较麻烦,但是要找到调用它的这行代码比较简单。于是在它调用eval函数(after_train_epoch)之前,使用torch.cuda.empty_cache(),如下图。

在这里插入图片描述
epoch_base_runner.py是在前一张图中红框错误提示的位置找到的。

结果:

训练过程中内存增加的问题解决了,但是做eval的时候还是会出现OOM。后面看了一些文章,有文章提到:

如果做eval预测框过多,那么可能会发生OOM


解决思路3:降低做预测时筛选出的预测框数量

于是我在模型配置文件中降低了做eval时,模型把预测框筛选出来的数量。

把max_per_img的数量从1000调低到500
在这里插入图片描述

结果:

问题是解决了,但是在训练更大的模型的时候,内存也是够的,但只是做eval的时候会发生问题。

分析:

在训练更大的模型时,为了获得训练结果数据,每个epoch,都需要做eval,但是再进一步调低max_per_img的数量,可能会导致模型性能下降。


解决思路4:把做eval的预测框处理放在CPU和内存里

相较于前三种解决方法,第四种解决思路是从另外一个方向去入手。把从下图看,内存溢出的位置是在pytorch做数据处理的部分,所以想,如果把该部分数据放到CPU处理,处理完再放回GPU做数据的return,究竟能不能解决问题?

红框中相应路径的文件对应代码运行时OOM。
在这里插入图片描述也有可能是这样的路径,按照实际你显示的错误为准:
在这里插入图片描述
这个路径:“D:\mmdetection-2.20.0\mmdet\models\roi_heads\mask_heads\fcn_mask_head.py”

找到上图红框这个路径的这个文件,打开修改该部分如下图所示,注释的部分是原来文件中的代码:
在这里插入图片描述

结果:

顺利解决了问题,在做eval的过程中GPU显存没有溢出、没有大幅波动。但是处理大分辨率的图片时,速度会很慢。而且要注意内存、虚拟内存占用是否会大幅上升。如果内存不够,可以适当调大系统虚拟内存。


windows10 调大系统虚拟内存的步骤:

在这里插入图片描述
在这里插入图片描述
我硬盘够大,虚拟内存最大值调到了将近100GB
在这里插入图片描述
调完,按设置,按确定就可以了。

这篇关于【pytorch】mmdetection 做eval / test时弹出OOM(Out of Memory / CUDA out of memory)的解决过程记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/428504

相关文章

IDEA和GIT关于文件中LF和CRLF问题及解决

《IDEA和GIT关于文件中LF和CRLF问题及解决》文章总结:因IDEA默认使用CRLF换行符导致Shell脚本在Linux运行报错,需在编辑器和Git中统一为LF,通过调整Git的core.aut... 目录问题描述问题思考解决过程总结问题描述项目软件安装shell脚本上git仓库管理,但拉取后,上l

Redis中Hash从使用过程到原理说明

《Redis中Hash从使用过程到原理说明》RedisHash结构用于存储字段-值对,适合对象数据,支持HSET、HGET等命令,采用ziplist或hashtable编码,通过渐进式rehash优化... 目录一、开篇:Hash就像超市的货架二、Hash的基本使用1. 常用命令示例2. Java操作示例三

Redis中Set结构使用过程与原理说明

《Redis中Set结构使用过程与原理说明》本文解析了RedisSet数据结构,涵盖其基本操作(如添加、查找)、集合运算(交并差)、底层实现(intset与hashtable自动切换机制)、典型应用场... 目录开篇:从购物车到Redis Set一、Redis Set的基本操作1.1 编程常用命令1.2 集

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

解决docker目录内存不足扩容处理方案

《解决docker目录内存不足扩容处理方案》文章介绍了Docker存储目录迁移方法:因系统盘空间不足,需将Docker数据迁移到更大磁盘(如/home/docker),通过修改daemon.json配... 目录1、查看服务器所有磁盘的使用情况2、查看docker镜像和容器存储目录的空间大小3、停止dock

k8s中实现mysql主备过程详解

《k8s中实现mysql主备过程详解》文章讲解了在K8s中使用StatefulSet部署MySQL主备架构,包含NFS安装、storageClass配置、MySQL部署及同步检查步骤,确保主备数据一致... 目录一、k8s中实现mysql主备1.1 环境信息1.2 部署nfs-provisioner1.2.

idea npm install很慢问题及解决(nodejs)

《ideanpminstall很慢问题及解决(nodejs)》npm安装速度慢可通过配置国内镜像源(如淘宝)、清理缓存及切换工具解决,建议设置全局镜像(npmconfigsetregistryht... 目录idea npm install很慢(nodejs)配置国内镜像源清理缓存总结idea npm in

idea突然报错Malformed \uxxxx encoding问题及解决

《idea突然报错Malformeduxxxxencoding问题及解决》Maven项目在切换Git分支时报错,提示project元素为描述符根元素,解决方法:删除Maven仓库中的resolv... 目www.chinasem.cn录问题解决方式总结问题idea 上的 maven China编程项目突然报错,是

在Ubuntu上打不开GitHub的完整解决方法

《在Ubuntu上打不开GitHub的完整解决方法》当你满心欢喜打开Ubuntu准备推送代码时,突然发现终端里的gitpush卡成狗,浏览器里的GitHub页面直接变成Whoathere!警告页面... 目录一、那些年我们遇到的"红色惊叹号"二、三大症状快速诊断症状1:浏览器直接无法访问症状2:终端操作异常

mybatis直接执行完整sql及踩坑解决

《mybatis直接执行完整sql及踩坑解决》MyBatis可通过select标签执行动态SQL,DQL用ListLinkedHashMap接收结果,DML用int处理,注意防御SQL注入,优先使用#... 目录myBATiFBNZQs直接执行完整sql及踩坑select语句采用count、insert、u