我有一个问题想问那些熟悉调度程序 Slurm 的人。有时我会收到以下错误消息 slurmstepd:错误:在某些时候超出了步骤内存限制。
我知道这意味着分配给我的进程的内存不够。尽管如此,该进程并没有被调度程序终止,并且通常看起来无害:程序运行完成并且输出文件看起来状态良好。
我是不是该总是如果我收到该错误消息,假设输出有错误并重新运行程序?为什么有时可以超出分配的内存但程序没有被杀死?
答案1
除非您收到一条消息,表明该作业已被 SLURM 终止并且 sacct 显示已完成状态,否则您应该能够合理地假设该作业已完成。