如何重新连接到断开连接的 slurm 计算节点?

如何重新连接到断开连接的 slurm 计算节点?

我在 SLURM 集群上使用 srun 启动了一个计算节点。我的 SSH 连接被切断,但我的节点仍然处于活动状态并消耗 GPU 资源。我如何重新连接到该节点?

答案1

srun不在 Slurm 中启动节点。它通过现有节点上的 shell 会话启动交互式作业。该节点处于活动状态,并且其他作业正在消耗该节点上的资源。当用户与节点断开连接时,作业就会终止,除非使用类似tmux或 之类的实用程序。screen

相关内容