有没有办法清除 Slurm 中陈旧的分配 GRES?
我有一个节点,其中分配了 4 个 GPU,但节点上没有运行任何作业。重新启动节点不会释放 GPU。
user@control1:~$ scontrol show node node2
NodeName=node2 Arch=x86_64 CoresPerSocket=64
CPUAlloc=0 CPUTot=256 CPULoad=0.05
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=gpu:tesla:8
NodeAddr=node2 NodeHostName=node2 Version=21.08.5
OS=Linux 5.15.0-83-generic #92-Ubuntu SMP Mon Aug 14 09:30:42 UTC 2023
RealMemory=1025596 AllocMem=0 FreeMem=1025887 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
Partitions=DEFAULT
BootTime=2023-09-19T12:58:23 SlurmdStartTime=2023-09-19T12:59:06
LastBusyTime=2023-09-19T12:59:07
CfgTRES=cpu=256,mem=1025596M,billing=256,gres/gpu=8,gres/gpu:tesla=8
AllocTRES=gres/gpu=4
CapWatts=n/a
CurrentWatts=0 AveWatts=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
user@control1:~$ squeue -w node2 --state=all
JOBID NAME USER STATE TIME QOS PRIORITY TIME_LIMIT NODELIST(REASON)
问题再次出现,这次关机时间没有删除分配。我从答案中删除了接受,因为它似乎不是“解决方案”。
答案1
我不知道为什么,但今天早上分配消失了。该节点在夜间被关闭以节省能源(集群范围配置),除此之外我没有在配置中更改任何内容。
user@control1:~$ scontrol show node node2
NodeName=node2 Arch=x86_64 CoresPerSocket=64
CPUAlloc=0 CPUTot=256 CPULoad=0.62
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=gpu:tesla:8
NodeAddr=node2 NodeHostName=node2 Version=21.08.5
OS=Linux 5.15.0-83-generic #92-Ubuntu SMP Mon Aug 14 09:30:42 UTC 2023
RealMemory=1025596 AllocMem=0 FreeMem=1025777 Sockets=2 Boards=1
State=IDLE ThreadsPerCore=2 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
Partitions=DEFAULT
BootTime=2023-09-20T07:02:31 SlurmdStartTime=2023-09-20T07:03:14
LastBusyTime=2023-09-20T07:09:02
CfgTRES=cpu=256,mem=1025596M,billing=256,gres/gpu=8,gres/gpu:tesla=8
AllocTRES=
CapWatts=n/a
CurrentWatts=0 AveWatts=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s