在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法

本文主要是介绍在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

下班前使用终端通过SSH登陆服务器,用nohup命令后台训练了一个pytorch模型。第二天来公司上班发现模型训练终止,报如下问题。

WARNING:torch.distributed.elastic.agent.server.api:Received 1 death signal, shutting down workers
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 2478002 closing signal SIGHUP
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 2478003 closing signal SIGHUP

一查原来是因为SSH终端与服务器之间建立的是临时的交互会话,如果一段时间没有交互,或者关闭窗口,会话就结束,那么会话内部的进程也终止,所以训练任务就结束了。

知识点补充:

1、 会话与进程

命令行的典型使用方式是,打开一个终端窗口(terminal window,以下简称"窗口"),在里面输入命令。用户与计算机的这种临时的交互,称为一次"会话"(session) 。

会话的一个重要特点是,窗口与其中启动的进程是连在一起的。打开窗口,会话开始;关闭窗口,会话结束,会话内部的进程也会随之终止,不管有没有运行完。

一个典型的例子就是,SSH 登录远程计算机,打开一个远程窗口执行命令。这时,网络突然断线,再次登录的时候,是找不回上一次执行的命令的。因为上一次 SSH 会话已经终止了,里面的进程也随之消失了。

为了解决这个问题,会话与窗口可以"解绑":窗口关闭时,会话并不终止,而是继续运行,等到以后需要的时候,再让会话"绑定"其他窗口。

2、如何保持SSH会话不结束

How to Keep SSH Session Alive

如何保持 SSH 会话不中断? - 知乎

我们使用Linux终端的方法来让SSH会话保持足够长的时间,足够保证我们的训练任务进程完成。

2.1 Linux client 配置

对于 Linux client ,我们在home目录下修改 ~/.ssh/config 文件(如果没有就创建)

vim  ~/.ssh/config

下面是配置

Host *
ServerAliveInterval 120
ServerAliveCountMax 720
  • Host:配置仅对 “Host” 关键字后面列出的主机生效。由于使用了通配符 (*),因此它们适用于所有主机
  • ServerAliveInterval:设置超时间隔(以秒为单位),如果没有从 server 接收到数据,SSH 将通过加密通道发送消息,请求 server 响应。默认值为 0,表示不会将这些消息发送到 server
  • ServerAliveCountMax:设置在 SSH 没有收到任何消息的情况下向 server 发送keepalive 消息的数量。如果达到了该阈值,SSH 将断开与 server 的连接,终止会话(默认值为 3)

表示 client 每 120s 向 server 发送 keepalive 消息,一共发送 720 次,也就是 120 * 720 = 86400 s(24小时),在这24小时内 SSH 会话会一直保持。

2.2 Linux server 配置

上面介绍的是 client 端的配置,我们接下来介绍 server 端的配置

修改 /etc/ssh/sshd_config 文件

sudo vi /etc/ssh/sshd_config
TCPKeepAlive yes
ClientAliveInterval 120 
ClientAliveCountMax 720

  • TCPKeepAlive:是否应该向 client 发送 TCP keepalive 信息
  • ClientAliveInterval:设置超时间隔(以秒为单位),如果没有从 client 接收到数据,SSH 将通过加密通道发送消息,请求 client 响应。默认值为 0,表示不会将这些消息发送到 client
  • ClientAliveCountMax:设置在 SSH 没有收到任何消息的情况下向 client 发送keepalive 消息的数量。如果达到了该阈值,SSH 将断开与 client 的连接,终止会话(默认值为 3)

与前面讲到的 Linux client 配置一样,server 将保持 SSH 会话24小时(120 * 720 = 86400s)

配置之后重启 SSH 服务

systemctl restart sshd

2.3 使用Tmux

https://www.cnblogs.com/gy77/p/16746769.html

https://www.ruanyifeng.com/blog/2019/10/tmux.html

# Mac安装 tmux
$ brew install tmux

这篇关于在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/185281

相关文章

Nginx 配置跨域的实现及常见问题解决

《Nginx配置跨域的实现及常见问题解决》本文主要介绍了Nginx配置跨域的实现及常见问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来... 目录1. 跨域1.1 同源策略1.2 跨域资源共享(CORS)2. Nginx 配置跨域的场景2.1

python使用库爬取m3u8文件的示例

《python使用库爬取m3u8文件的示例》本文主要介绍了python使用库爬取m3u8文件的示例,可以使用requests、m3u8、ffmpeg等库,实现获取、解析、下载视频片段并合并等步骤,具有... 目录一、准备工作二、获取m3u8文件内容三、解析m3u8文件四、下载视频片段五、合并视频片段六、错误

Python中提取文件名扩展名的多种方法实现

《Python中提取文件名扩展名的多种方法实现》在Python编程中,经常会遇到需要从文件名中提取扩展名的场景,Python提供了多种方法来实现这一功能,不同方法适用于不同的场景和需求,包括os.pa... 目录技术背景实现步骤方法一:使用os.path.splitext方法二:使用pathlib模块方法三

Python打印对象所有属性和值的方法小结

《Python打印对象所有属性和值的方法小结》在Python开发过程中,调试代码时经常需要查看对象的当前状态,也就是对象的所有属性和对应的值,然而,Python并没有像PHP的print_r那样直接提... 目录python中打印对象所有属性和值的方法实现步骤1. 使用vars()和pprint()2. 使

CSS实现元素撑满剩余空间的五种方法

《CSS实现元素撑满剩余空间的五种方法》在日常开发中,我们经常需要让某个元素占据容器的剩余空间,本文将介绍5种不同的方法来实现这个需求,并分析各种方法的优缺点,感兴趣的朋友一起看看吧... css实现元素撑满剩余空间的5种方法 在日常开发中,我们经常需要让某个元素占据容器的剩余空间。这是一个常见的布局需求

gitlab安装及邮箱配置和常用使用方式

《gitlab安装及邮箱配置和常用使用方式》:本文主要介绍gitlab安装及邮箱配置和常用使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装GitLab2.配置GitLab邮件服务3.GitLab的账号注册邮箱验证及其分组4.gitlab分支和标签的

SpringBoot3应用中集成和使用Spring Retry的实践记录

《SpringBoot3应用中集成和使用SpringRetry的实践记录》SpringRetry为SpringBoot3提供重试机制,支持注解和编程式两种方式,可配置重试策略与监听器,适用于临时性故... 目录1. 简介2. 环境准备3. 使用方式3.1 注解方式 基础使用自定义重试策略失败恢复机制注意事项

nginx启动命令和默认配置文件的使用

《nginx启动命令和默认配置文件的使用》:本文主要介绍nginx启动命令和默认配置文件的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录常见命令nginx.conf配置文件location匹配规则图片服务器总结常见命令# 默认配置文件启动./nginx

在Windows上使用qemu安装ubuntu24.04服务器的详细指南

《在Windows上使用qemu安装ubuntu24.04服务器的详细指南》本文介绍了在Windows上使用QEMU安装Ubuntu24.04的全流程:安装QEMU、准备ISO镜像、创建虚拟磁盘、配置... 目录1. 安装QEMU环境2. 准备Ubuntu 24.04镜像3. 启动QEMU安装Ubuntu4

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解