Slurm:如何找出给定节点上未分配的内存量

Slurm:如何找出给定节点上未分配的内存量

我是 SLURM 新手。我正在寻找一种方便的方式来查看节点/节点列表中有多少内存可用于我的 srun 分配。

我已经尝试过 sinfo、scontrol 和 sstat,但它们都无法通过一个舒适的概览为我提供我需要的信息。

我曾想过编写一个 shell 脚本,以便从 scontrol 中获取所有作业的所有字段并将它们汇总起来。但一定有更简单的方法。如果有人能提供提示或想法就太好了!

答案1

输出的第 7 列sinfo -N -l将告诉您每个计算节点安装了多少内存。

$sinfo -N -l
Wed Nov  6 16:31:45 2013
NODELIST                NODES PARTITION       STATE CPUS    S:C:T MEMORY TMP_DISK WEIGHT FEATURES REASON              
node001                    1      Def*        idle    8    2:4:1  24150   920644    100 Xeon,X55 none  

该命令scontrol -o show nodes将告诉您每个节点上已使用了多少内存。查找条目AllocMem。(需要 Slurm 2.6.0 或更高版本)

$ scontrol -o show nodes | awk '{ print $1, $13, $14}'
NodeName=node001 RealMemory=24150 AllocMem=0

相关内容