同时发生的进程神秘结束

同时发生的进程神秘结束

我正在尝试运行一个大型空气质量模型,该模型用 FORTRAN 编写,用 bash 脚本设置,并在工作队列 (slurm) 中运行。

建模的第一部分是运行“入口”模型,该模型在工作队列中使用 MPI 运行,但仅在一个进程上运行。

在日志中的某一时刻,出现了一个神秘的FORTRAN STOP,然后模型失败了,因为某些东西没有正确设置。

FORTRAN STOP不是来自继续运行的主进程。

这是一个巨大的模型,但据我所知,不应该有任何其他进程同时运行。

它总是在同一个地方失败。(我可以通过添加调试来移动它,但调试是在主进程中)

我怎样才能确定这个过程是什么?

我尝试添加一个调用

strace -feprocess $SHELL

在运行脚本中,但我对此很陌生,因此如果它提供了任何信息,我还无法使用它。 周围没有跟踪输出FORTRAN STOP

整个过程发生得如此之快,我似乎无法用 来观察它ps

有没有办法可以监控从工作队列启动时开始的所有进程?或者有其他方法可以找出问题所在?

它运行在 CentOS 6.4 上,带有 Slurm,用 PGI 13 编译。

相关内容