我是 SLURM 新手。我正在寻找一种方便的方式来查看节点/节点列表中有多少内存可用于我的 srun 分配。
我已经尝试过 sinfo、scontrol 和 sstat,但它们都无法通过一个舒适的概览为我提供我需要的信息。
我曾想过编写一个 shell 脚本,以便从 scontrol 中获取所有作业的所有字段并将它们汇总起来。但一定有更简单的方法。如果有人能提供提示或想法就太好了!
答案1
输出的第 7 列sinfo -N -l
将告诉您每个计算节点安装了多少内存。
$sinfo -N -l
Wed Nov 6 16:31:45 2013
NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT FEATURES REASON
node001 1 Def* idle 8 2:4:1 24150 920644 100 Xeon,X55 none
该命令scontrol -o show nodes
将告诉您每个节点上已使用了多少内存。查找条目AllocMem
。(需要 Slurm 2.6.0 或更高版本)
$ scontrol -o show nodes | awk '{ print $1, $13, $14}'
NodeName=node001 RealMemory=24150 AllocMem=0