有没有办法检查运行 SLURM 的集群上的资源利用率?

有没有办法检查运行 SLURM 的集群上的资源利用率?

不确定这个问题在这里还是在 Unix.SE 上更合适,但我觉得在这里更合适。我正在对使用 SLURM 调度作业的国家集群进行一些计算密集型研究。

我意识到我的批处理脚本的一部分(创建了一堆子进程)的运行速度比我预期的要慢得多,我怀疑我使用的分析工具调用了太多线程。

我希望检查是否存在过多的上下文切换,但结果似乎需要 PID 来检查上下文切换的次数ps。通过或检查进程top没有找到我正在运行的特定工具的名称,因此我认为我的脚本运行的实际进程被 SLURM 以不同的级别“隐藏”。我认为这是有道理的,因为我通过 ssh 与之交互的实际计算机和执行计算的节点并不相同。

但是,有没有办法可以通过命令行检查诸如 CPU 利用率(例如 % 负载)或上下文切换次数之类的信息?

相关内容