Slurm Cluster 上的 Ansys parallele 作业卡住,没有错误或退出消息

Slurm Cluster 上的 Ansys parallele 作业卡住,没有错误或退出消息

我正在 Slurm 集群上工作,以并行方式执行 Ansys (V18.2) 作业。大型作业(意味着大型解算器文件)经常卡住而没有错误消息或退出消息,作业一直运行直到达到超时。 由于作业规模较大,求解器文件不是写入/保存在核心(RAM 中)或节点的暂存 SSD 中,而是保存在集群/数据存储在那里,我清楚地看到作业是否因求解器文件的“修改日期”信息没有变化而停滞。

我遇到的典型错误消息是“节点失败”或未定义的退出消息,我认为这与内存泄漏有关。但现在不会发生这些情况。

奇怪的是,如果再次运行相同的作业,这可能会在不同的时间点发生,或者(如果我幸运的话)根本不会发生。

我到目前为止尝试过的:

  • 减少请求的 CPU 数量以某种方式增加了作业完成的可能性。但由于指定的最大作业时间,我需要并行化
  • MPI 类型(英特尔、平台 mpi)无结果
  • 专用存储分区(无明显差异)
  • 核心内 VS 核心外请求(无论如何求解器总是切换到核心外)

我很高兴得到任何关于如何通过多次重新运行作业来减少无意义的计算工作的建议,这对于我们的项目来说也是耗时的。

附言:规模小得多的作业(例如,自由度数量少 3 倍)从未遇到过此问题,并且我可以使用每个节点的全部核心数,这也是我的 Ansys 许可证允许的最大数量(16 个核心)

相关内容