AWS 上的 Slurm 节点设置为在启动时耗尽

AWS 上的 Slurm 节点设置为在启动时耗尽

我正在使用 CloudFormation 创建的 AWS 集群上配置 slurm。在启动时,一些节点被设置为“耗尽”状态,原因是“低套接字线程数”。但是,集群中的所有节点都是相同的 EC2 实例类型,安装了相同的 slurm.conf 文件,并且来自相同的 AMI。只有部分节点最终处于“耗尽”状态,我看不到其中的规律。在我手动将“耗尽”节点的状态更新为“恢复”后,它们便可用于处理任务。有人见过这种情况吗?

ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      2  drain ip-10-0-0-10,node1
compute*     up   infinite      1   idle node2

ubuntu@ip-10-0-0-10:~$ scontrol show node node1
NodeName=node1 Arch=x86_64 CoresPerSocket=1
   CPUAlloc=0 CPUErr=0 CPUTot=4 CPULoad=0.40 Features=(null)
   Gres=(null)
   NodeAddr=node1 NodeHostName=node1 Version=15.08
   OS=Linux RealMemory=1 AllocMem=0 FreeMem=15062 Sockets=4 Boards=1
   State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A
   BootTime=2019-08-19T21:46:44 SlurmdStartTime=2019-08-19T21:48:36
   CapWatts=n/a
   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
   Reason=Low socket*core*thread count, Low CPUs [slurm@2019-08-19T21:47:06]

ubuntu@ip-10-0-0-10:~$ sudo scontrol update nodename=node1,ip-10-0-0-10 state=RESUME

ubuntu@ip-10-0-0-10:~$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
compute*     up   infinite      3   idle ip-10-0-0-10,node[1-2]

答案1

如果尚未设置,请尝试在 slurm.conf 中设置“ReturnToService=2”。然后重新启动 slurm 服务。此处,值 2 表示

处于 DOWN 状态的节点在注册时将变为可用状态,并配置有效。节点可能因任何原因被设置为 DOWN。如果节点的内存、GRES、CPU 数量等等于或大于 slurm.conf 中配置的值,则节点将注册为有效配置。(在 Cray ALPS 系统上已禁用。)

默认值为 0。

来源https://slurm.schedmd.com/slurm.conf.html

相关内容