SLURM、SSH 和 NOHUP 行为

SLURM、SSH 和 NOHUP 行为

我是 CentOS 上运行的集群的管理员,使用 SLURM 将作业从登录节点发送到计算节点。最近,有用户抱怨他们的作业出现一些意外行为。如果用户使用 启动作业srun然后注销,作业将按预期继续运行。但是,当用户因 SSH 超时而断开连接时,作业将被终止。我通过终止使用 运行作业的 shell 复制了此行为,作业kill -1 ShellJobID被终止。检查 SLURM 日志表明,根据 行,作业实际上收到了SIGKILL而不是。此外,如果我运行,作业将以 退出。使用 注销是否可以防止取消 SLURM 作业?我的印象是,而且研究似乎也支持这一点,在注销时会传播到 shell 的子级。我是不是遗漏了什么或者完全偏离了基础?SIGHUPWSIGTERM 9kill -1 ActiveSrunJobWSIGTERM 9exitSIGHUP

相关内容