MPI 作业因 ssh 断开连接而停止

MPI 作业因 ssh 断开连接而停止

我一直在THCP无盘服务器中使用MPI。但是,当我使用 MPI 运行作业时,有时进程会因 SSH 断开连接而终止。

client_loop: send disconnect: Broken pipe

没有任何错误或单个作业没有错误。
另外,如果我在作业终止后尝试为每个 CPU 连接 SSH,它会正常连接

我的源代码使用INTEL MKL库,服务器由16个AMD Ryzen 9 5900x cpu和48GB RAM内存组成,我也使用MPICH3。

我怎么解决这个问题?
有没有办法不确定地找到与sshd断开相关的错误日志?

谢谢。

相关内容