在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法

本文主要是介绍在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

下班前使用终端通过SSH登陆服务器,用nohup命令后台训练了一个pytorch模型。第二天来公司上班发现模型训练终止,报如下问题。

WARNING:torch.distributed.elastic.agent.server.api:Received 1 death signal, shutting down workers
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 2478002 closing signal SIGHUP
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 2478003 closing signal SIGHUP

一查原来是因为SSH终端与服务器之间建立的是临时的交互会话,如果一段时间没有交互,或者关闭窗口,会话就结束,那么会话内部的进程也终止,所以训练任务就结束了。

知识点补充:

1、 会话与进程

命令行的典型使用方式是,打开一个终端窗口(terminal window,以下简称"窗口"),在里面输入命令。用户与计算机的这种临时的交互,称为一次"会话"(session) 。

会话的一个重要特点是,窗口与其中启动的进程是连在一起的。打开窗口,会话开始;关闭窗口,会话结束,会话内部的进程也会随之终止,不管有没有运行完。

一个典型的例子就是,SSH 登录远程计算机,打开一个远程窗口执行命令。这时,网络突然断线,再次登录的时候,是找不回上一次执行的命令的。因为上一次 SSH 会话已经终止了,里面的进程也随之消失了。

为了解决这个问题,会话与窗口可以"解绑":窗口关闭时,会话并不终止,而是继续运行,等到以后需要的时候,再让会话"绑定"其他窗口。

2、如何保持SSH会话不结束

How to Keep SSH Session Alive

如何保持 SSH 会话不中断? - 知乎

我们使用Linux终端的方法来让SSH会话保持足够长的时间,足够保证我们的训练任务进程完成。

2.1 Linux client 配置

对于 Linux client ,我们在home目录下修改 ~/.ssh/config 文件(如果没有就创建)

vim  ~/.ssh/config

下面是配置

Host *
ServerAliveInterval 120
ServerAliveCountMax 720
  • Host:配置仅对 “Host” 关键字后面列出的主机生效。由于使用了通配符 (*),因此它们适用于所有主机
  • ServerAliveInterval:设置超时间隔(以秒为单位),如果没有从 server 接收到数据,SSH 将通过加密通道发送消息,请求 server 响应。默认值为 0,表示不会将这些消息发送到 server
  • ServerAliveCountMax:设置在 SSH 没有收到任何消息的情况下向 server 发送keepalive 消息的数量。如果达到了该阈值,SSH 将断开与 server 的连接,终止会话(默认值为 3)

表示 client 每 120s 向 server 发送 keepalive 消息,一共发送 720 次,也就是 120 * 720 = 86400 s(24小时),在这24小时内 SSH 会话会一直保持。

2.2 Linux server 配置

上面介绍的是 client 端的配置,我们接下来介绍 server 端的配置

修改 /etc/ssh/sshd_config 文件

sudo vi /etc/ssh/sshd_config
TCPKeepAlive yes
ClientAliveInterval 120 
ClientAliveCountMax 720

  • TCPKeepAlive:是否应该向 client 发送 TCP keepalive 信息
  • ClientAliveInterval:设置超时间隔(以秒为单位),如果没有从 client 接收到数据,SSH 将通过加密通道发送消息,请求 client 响应。默认值为 0,表示不会将这些消息发送到 client
  • ClientAliveCountMax:设置在 SSH 没有收到任何消息的情况下向 client 发送keepalive 消息的数量。如果达到了该阈值,SSH 将断开与 client 的连接,终止会话(默认值为 3)

与前面讲到的 Linux client 配置一样,server 将保持 SSH 会话24小时(120 * 720 = 86400s)

配置之后重启 SSH 服务

systemctl restart sshd

2.3 使用Tmux

https://www.cnblogs.com/gy77/p/16746769.html

https://www.ruanyifeng.com/blog/2019/10/tmux.html

# Mac安装 tmux
$ brew install tmux

这篇关于在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/185281

相关文章

PyTorch核心方法之state_dict()、parameters()参数打印与应用案例

《PyTorch核心方法之state_dict()、parameters()参数打印与应用案例》PyTorch是一个流行的开源深度学习框架,提供了灵活且高效的方式来训练和部署神经网络,这篇文章主要介绍... 目录前言模型案例A. state_dict()方法验证B. parameters()C. 模型结构冻

MybatisPlus 多数据源切换@DS注解失效问题解决

《MybatisPlus多数据源切换@DS注解失效问题解决》在业务开发中使用到了多数据源,遇到了@DS注解失效问题,有两个场景使用到同一个@DS的查询方法,下面就来介绍一下该问题的解决,感兴趣的可以... 在业务开发中使用到了多数据源,遇到了@DS注解失效问题,有两个场景使用到同一个@DS的查询方法,一个正

Centos7 firewall和docker冲突问题及解决过程

《Centos7firewall和docker冲突问题及解决过程》本文描述了一个在CentOS7上使用firewalld和Docker容器的问题,当firewalld启动或重启时,会从iptable... 目录系统环境问题描述问题排查解决办法总结本文只是我对问题的记录,只能用作参考,不能China编程说明问题,请

Java中的ConcurrentBitSet使用小结

《Java中的ConcurrentBitSet使用小结》本文主要介绍了Java中的ConcurrentBitSet使用小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、核心澄清:Java标准库无内置ConcurrentBitSet二、推荐方案:Eclipse

Go语言结构体标签(Tag)的使用小结

《Go语言结构体标签(Tag)的使用小结》结构体标签Tag是Go语言中附加在结构体字段后的元数据字符串,用于提供额外的属性信息,这些信息可以通过反射在运行时读取和解析,下面就来详细的介绍一下Tag的使... 目录什么是结构体标签?基本语法常见的标签用途1.jsON 序列化/反序列化(最常用)2.数据库操作(

Java中ScopeValue的使用小结

《Java中ScopeValue的使用小结》Java21引入的ScopedValue是一种作用域内共享不可变数据的预览API,本文就来详细介绍一下Java中ScopeValue的使用小结,感兴趣的可以... 目录一、Java ScopedValue(作用域值)详解1. 定义与背景2. 核心特性3. 使用方法

spring中Interceptor的使用小结

《spring中Interceptor的使用小结》SpringInterceptor是SpringMVC提供的一种机制,用于在请求处理的不同阶段插入自定义逻辑,通过实现HandlerIntercept... 目录一、Interceptor 的核心概念二、Interceptor 的创建与配置三、拦截器的执行顺

Python字符串处理方法超全攻略

《Python字符串处理方法超全攻略》字符串可以看作多个字符的按照先后顺序组合,相当于就是序列结构,意味着可以对它进行遍历、切片,:本文主要介绍Python字符串处理方法的相关资料,文中通过代码介... 目录一、基础知识:字符串的“不可变”特性与创建方式二、常用操作:80%场景的“万能工具箱”三、格式化方法

springboot+redis实现订单过期(超时取消)功能的方法详解

《springboot+redis实现订单过期(超时取消)功能的方法详解》在SpringBoot中使用Redis实现订单过期(超时取消)功能,有多种成熟方案,本文为大家整理了几个详细方法,文中的示例代... 目录一、Redis键过期回调方案(推荐)1. 配置Redis监听器2. 监听键过期事件3. Redi

C#中checked关键字的使用小结

《C#中checked关键字的使用小结》本文主要介绍了C#中checked关键字的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录✅ 为什么需要checked? 问题:整数溢出是“静默China编程”的(默认)checked的三种用