我通常使用 提交一些作业,sbatch
并在使用 后取消其中一些作业scancel
。但是,它们处于状态CG
,我无法从列表中删除这些作业。
有什么办法可以摆脱这些CG
工作吗?遗憾的是,我不是集群的管理员,也没有 root 密码。
答案1
终止slurmstepd
您的作业所占用的第一个节点上的进程应该有效。此进程应在您的用户下,因此原则上终止它不需要特殊权限。
请注意不要终止slurmtespd
可能在同一节点上运行的另一个作业。你也许可以根据它们的开始时间来区分它们。
答案2
我看到了同样的问题并分享了如何解决它。
- 重新排队然后释放,scancel
[test@test02-scheduler ~]$ scontrol release 9
Job has already finished for job 9
slurm_suspend error: Job has already finished
[test@test02-scheduler ~]$ scontrol requeue 9
[test@test02-scheduler ~]$ scontrol release 9
[test@test02-scheduler ~]$
[test@test02-scheduler ~]$ squeue --long
Sun Feb 06 00:17:57 2022
JOBID PARTITION NAME USER STATE TIME TIME_LIMI NODES NODELIST(REASON)
9 hpc sleep.sh test COMPLETI 0:00 5:00 1 test02-hpc-pg0-[1-3,5,9]
[test@test02-scheduler ~]$ squeue -s
STEPID NAME PARTITION USER TIME NODELIST
9.batch batch hpc test 1:22:24 test02-hpc-pg0-1
[test@test02-scheduler ~]$ scancel 9
[test@test02-scheduler ~]$ squeue -s
STEPID NAME PARTITION USER TIME NODELIST
9.batch batch hpc test 1:22:30 test02-hpc-pg0-1
[test@test02-scheduler ~]$ squeue -s
STEPID NAME PARTITION USER TIME NODELIST
9.batch batch hpc test 1:22:32 test02-hpc-pg0-1
[test@test02-scheduler ~]$ squeue --long
Sun Feb 06 00:18:12 2022
JOBID PARTITION NAME USER STATE TIME TIME_LIMI NODES NODELIST(REASON)
9 hpc sleep.sh test COMPLETI 0:21 5:00 1 test02-hpc-pg0-[1-3,5,9]
[test@test02-scheduler ~]$
[test@test02-scheduler ~]$ squeue --long
Sun Feb 06 00:21:04 2022
JOBID PARTITION NAME USER STATE TIME TIME_LIMI NODES NODELIST(REASON)
[test@test02-scheduler ~]$
Sun Feb 6 00:22:32 UTC 2022