我正在尝试运行一个大型空气质量模型,该模型用 FORTRAN 编写,用 bash 脚本设置,并在工作队列 (slurm) 中运行。
建模的第一部分是运行“入口”模型,该模型在工作队列中使用 MPI 运行,但仅在一个进程上运行。
在日志中的某一时刻,出现了一个神秘的FORTRAN STOP
,然后模型失败了,因为某些东西没有正确设置。
这FORTRAN STOP
不是来自继续运行的主进程。
这是一个巨大的模型,但据我所知,不应该有任何其他进程同时运行。
它总是在同一个地方失败。(我可以通过添加调试来移动它,但调试是在主进程中)
我怎样才能确定这个过程是什么?
我尝试添加一个调用
strace -feprocess $SHELL
在运行脚本中,但我对此很陌生,因此如果它提供了任何信息,我还无法使用它。 周围没有跟踪输出FORTRAN STOP
。
整个过程发生得如此之快,我似乎无法用 来观察它ps
。
有没有办法可以监控从工作队列启动时开始的所有进程?或者有其他方法可以找出问题所在?
它运行在 CentOS 6.4 上,带有 Slurm,用 PGI 13 编译。