如何处理 mpi 头节点故障?

如何处理 mpi 头节点故障?

有一个以 mpirun 启动的应用程序。如果计算节点发生故障,则所有进程都会崩溃,但如果只有头节点发生故障(例如重新启动),则进程将卡在计算节点上。如何自动摆脱这些僵尸进程?

相关内容