我一直在THCP无盘服务器中使用MPI。但是,当我使用 MPI 运行作业时,有时进程会因 SSH 断开连接而终止。
client_loop: send disconnect: Broken pipe
没有任何错误或单个作业没有错误。
另外,如果我在作业终止后尝试为每个 CPU 连接 SSH,它会正常连接
我的源代码使用INTEL MKL库,服务器由16个AMD Ryzen 9 5900x cpu和48GB RAM内存组成,我也使用MPICH3。
我怎么解决这个问题?
有没有办法不确定地找到与sshd断开相关的错误日志?
谢谢。