【pytorch】mmdetection 做eval / test时弹出OOM(Out of Memory / CUDA out of memory)的解决过程记录

2023-11-27 21:30

本文主要是介绍【pytorch】mmdetection 做eval / test时弹出OOM(Out of Memory / CUDA out of memory)的解决过程记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题描述:

在用cascade RCNN进行训练的过程中,是不会发生OOM的,但是在做eval的时候(数据没有shuffle),每次做到第6批次数据的时候就会出现OOM如下图所示:
请添加图片描述

解决思路总结:

解决思路1: 调低batch_size
解决思路2:每次训练完清空cuda缓存
解决思路3:降低做预测时模型筛选出的预测框的数量
解决思路4:做eval时,把预测框的处理程序放在cpu和内存中


解决思路1:调低batch_size

调低batch_size到1的时候并不能解决这个问题,只会在训练的时候,显存占用稍微低一些。

结果:

还是解决不了问题

做训练的时候会发现一个问题,随着训练过程的进行,训练占用的显存越来越多。

分析:

因此想,会不会在昨晚训练之后清空一下cuda的缓存,做eval就不会超出显存OOM了? 下一个解决该问题的思路是在,清空cuda缓存上。


解决思路2:每次训练完清空cuda的缓存

清空cuda缓存可以用torch.cuda.empty_cache(),但是该代码加在哪里,也是一个问题。

可以看到报错提示红框的部分,中文翻译过来就是“训练完一个epoch之后要做的事情”:
在这里插入图片描述
pytorch有hook机制,并且mmdetection封装了许多API,在调用函数建立模型的时候方便,但是需要寻找对应代码去修改比较麻烦。

找"after_train_epoch"函数比较麻烦,但是要找到调用它的这行代码比较简单。于是在它调用eval函数(after_train_epoch)之前,使用torch.cuda.empty_cache(),如下图。

在这里插入图片描述
epoch_base_runner.py是在前一张图中红框错误提示的位置找到的。

结果:

训练过程中内存增加的问题解决了,但是做eval的时候还是会出现OOM。后面看了一些文章,有文章提到:

如果做eval预测框过多,那么可能会发生OOM


解决思路3:降低做预测时筛选出的预测框数量

于是我在模型配置文件中降低了做eval时,模型把预测框筛选出来的数量。

把max_per_img的数量从1000调低到500
在这里插入图片描述

结果:

问题是解决了,但是在训练更大的模型的时候,内存也是够的,但只是做eval的时候会发生问题。

分析:

在训练更大的模型时,为了获得训练结果数据,每个epoch,都需要做eval,但是再进一步调低max_per_img的数量,可能会导致模型性能下降。


解决思路4:把做eval的预测框处理放在CPU和内存里

相较于前三种解决方法,第四种解决思路是从另外一个方向去入手。把从下图看,内存溢出的位置是在pytorch做数据处理的部分,所以想,如果把该部分数据放到CPU处理,处理完再放回GPU做数据的return,究竟能不能解决问题?

红框中相应路径的文件对应代码运行时OOM。
在这里插入图片描述也有可能是这样的路径,按照实际你显示的错误为准:
在这里插入图片描述
这个路径:“D:\mmdetection-2.20.0\mmdet\models\roi_heads\mask_heads\fcn_mask_head.py”

找到上图红框这个路径的这个文件,打开修改该部分如下图所示,注释的部分是原来文件中的代码:
在这里插入图片描述

结果:

顺利解决了问题,在做eval的过程中GPU显存没有溢出、没有大幅波动。但是处理大分辨率的图片时,速度会很慢。而且要注意内存、虚拟内存占用是否会大幅上升。如果内存不够,可以适当调大系统虚拟内存。


windows10 调大系统虚拟内存的步骤:

在这里插入图片描述
在这里插入图片描述
我硬盘够大,虚拟内存最大值调到了将近100GB
在这里插入图片描述
调完,按设置,按确定就可以了。

这篇关于【pytorch】mmdetection 做eval / test时弹出OOM(Out of Memory / CUDA out of memory)的解决过程记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/428504

相关文章

Linux线程同步/互斥过程详解

《Linux线程同步/互斥过程详解》文章讲解多线程并发访问导致竞态条件,需通过互斥锁、原子操作和条件变量实现线程安全与同步,分析死锁条件及避免方法,并介绍RAII封装技术提升资源管理效率... 目录01. 资源共享问题1.1 多线程并发访问1.2 临界区与临界资源1.3 锁的引入02. 多线程案例2.1 为

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Win10安装Maven与环境变量配置过程

《Win10安装Maven与环境变量配置过程》本文介绍Maven的安装与配置方法,涵盖下载、环境变量设置、本地仓库及镜像配置,指导如何在IDEA中正确配置Maven,适用于Java及其他语言项目的构建... 目录Maven 是什么?一、下载二、安装三、配置环境四、验证测试五、配置本地仓库六、配置国内镜像地址

Springboot项目启动失败提示找不到dao类的解决

《Springboot项目启动失败提示找不到dao类的解决》SpringBoot启动失败,因ProductServiceImpl未正确注入ProductDao,原因:Dao未注册为Bean,解决:在启... 目录错误描述原因解决方法总结***************************APPLICA编

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)

《java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)》:本文主要介绍java中pdf模版填充表单踩坑的相关资料,OpenPDF、iText、PDFBox是三... 目录准备Pdf模版方法1:itextpdf7填充表单(1)加入依赖(2)代码(3)遇到的问题方法2:pd

解决RocketMQ的幂等性问题

《解决RocketMQ的幂等性问题》重复消费因调用链路长、消息发送超时或消费者故障导致,通过生产者消息查询、Redis缓存及消费者唯一主键可以确保幂等性,避免重复处理,本文主要介绍了解决RocketM... 目录造成重复消费的原因解决方法生产者端消费者端代码实现造成重复消费的原因当系统的调用链路比较长的时

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统