【pytorch】mmdetection 做eval / test时弹出OOM(Out of Memory / CUDA out of memory)的解决过程记录

2023-11-27 21:30

本文主要是介绍【pytorch】mmdetection 做eval / test时弹出OOM(Out of Memory / CUDA out of memory)的解决过程记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题描述:

在用cascade RCNN进行训练的过程中,是不会发生OOM的,但是在做eval的时候(数据没有shuffle),每次做到第6批次数据的时候就会出现OOM如下图所示:
请添加图片描述

解决思路总结:

解决思路1: 调低batch_size
解决思路2:每次训练完清空cuda缓存
解决思路3:降低做预测时模型筛选出的预测框的数量
解决思路4:做eval时,把预测框的处理程序放在cpu和内存中


解决思路1:调低batch_size

调低batch_size到1的时候并不能解决这个问题,只会在训练的时候,显存占用稍微低一些。

结果:

还是解决不了问题

做训练的时候会发现一个问题,随着训练过程的进行,训练占用的显存越来越多。

分析:

因此想,会不会在昨晚训练之后清空一下cuda的缓存,做eval就不会超出显存OOM了? 下一个解决该问题的思路是在,清空cuda缓存上。


解决思路2:每次训练完清空cuda的缓存

清空cuda缓存可以用torch.cuda.empty_cache(),但是该代码加在哪里,也是一个问题。

可以看到报错提示红框的部分,中文翻译过来就是“训练完一个epoch之后要做的事情”:
在这里插入图片描述
pytorch有hook机制,并且mmdetection封装了许多API,在调用函数建立模型的时候方便,但是需要寻找对应代码去修改比较麻烦。

找"after_train_epoch"函数比较麻烦,但是要找到调用它的这行代码比较简单。于是在它调用eval函数(after_train_epoch)之前,使用torch.cuda.empty_cache(),如下图。

在这里插入图片描述
epoch_base_runner.py是在前一张图中红框错误提示的位置找到的。

结果:

训练过程中内存增加的问题解决了,但是做eval的时候还是会出现OOM。后面看了一些文章,有文章提到:

如果做eval预测框过多,那么可能会发生OOM


解决思路3:降低做预测时筛选出的预测框数量

于是我在模型配置文件中降低了做eval时,模型把预测框筛选出来的数量。

把max_per_img的数量从1000调低到500
在这里插入图片描述

结果:

问题是解决了,但是在训练更大的模型的时候,内存也是够的,但只是做eval的时候会发生问题。

分析:

在训练更大的模型时,为了获得训练结果数据,每个epoch,都需要做eval,但是再进一步调低max_per_img的数量,可能会导致模型性能下降。


解决思路4:把做eval的预测框处理放在CPU和内存里

相较于前三种解决方法,第四种解决思路是从另外一个方向去入手。把从下图看,内存溢出的位置是在pytorch做数据处理的部分,所以想,如果把该部分数据放到CPU处理,处理完再放回GPU做数据的return,究竟能不能解决问题?

红框中相应路径的文件对应代码运行时OOM。
在这里插入图片描述也有可能是这样的路径,按照实际你显示的错误为准:
在这里插入图片描述
这个路径:“D:\mmdetection-2.20.0\mmdet\models\roi_heads\mask_heads\fcn_mask_head.py”

找到上图红框这个路径的这个文件,打开修改该部分如下图所示,注释的部分是原来文件中的代码:
在这里插入图片描述

结果:

顺利解决了问题,在做eval的过程中GPU显存没有溢出、没有大幅波动。但是处理大分辨率的图片时,速度会很慢。而且要注意内存、虚拟内存占用是否会大幅上升。如果内存不够,可以适当调大系统虚拟内存。


windows10 调大系统虚拟内存的步骤:

在这里插入图片描述
在这里插入图片描述
我硬盘够大,虚拟内存最大值调到了将近100GB
在这里插入图片描述
调完,按设置,按确定就可以了。

这篇关于【pytorch】mmdetection 做eval / test时弹出OOM(Out of Memory / CUDA out of memory)的解决过程记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/428504

相关文章

qt5cored.dll报错怎么解决? 电脑qt5cored.dll文件丢失修复技巧

《qt5cored.dll报错怎么解决?电脑qt5cored.dll文件丢失修复技巧》在进行软件安装或运行程序时,有时会遇到由于找不到qt5core.dll,无法继续执行代码,这个问题可能是由于该文... 遇到qt5cored.dll文件错误时,可能会导致基于 Qt 开发的应用程序无法正常运行或启动。这种错

Python UV安装、升级、卸载详细步骤记录

《PythonUV安装、升级、卸载详细步骤记录》:本文主要介绍PythonUV安装、升级、卸载的详细步骤,uv是Astral推出的下一代Python包与项目管理器,主打单一可执行文件、极致性能... 目录安装检查升级设置自动补全卸载UV 命令总结 官方文档详见:https://docs.astral.sh/

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

MySQL存储过程之循环遍历查询的结果集详解

《MySQL存储过程之循环遍历查询的结果集详解》:本文主要介绍MySQL存储过程之循环遍历查询的结果集,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言1. 表结构2. 存储过程3. 关于存储过程的SQL补充总结前言近来碰到这样一个问题:在生产上导入的数据发现

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件(Component)1.2 规则(Rule)1.3 上下文(Conte

MySQL 设置AUTO_INCREMENT 无效的问题解决

《MySQL设置AUTO_INCREMENT无效的问题解决》本文主要介绍了MySQL设置AUTO_INCREMENT无效的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录快速设置mysql的auto_increment参数一、修改 AUTO_INCREMENT 的值。

关于跨域无效的问题及解决(java后端方案)

《关于跨域无效的问题及解决(java后端方案)》:本文主要介绍关于跨域无效的问题及解决(java后端方案),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录通用后端跨域方法1、@CrossOrigin 注解2、springboot2.0 实现WebMvcConfig

统一返回JsonResult踩坑的记录

《统一返回JsonResult踩坑的记录》:本文主要介绍统一返回JsonResult踩坑的记录,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录统一返回jsonResult踩坑定义了一个统一返回类在使用时,JsonResult没有get/set方法时响应总结统一返回

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和