我们的集群必须在两周内关闭以进行更新。我们希望让用户使用集群直到最后一天,但我们要确保,任何作业都不能启动,因为关闭日期之后就会结束。有没有一种简单的方法可以将 slurm 作业的运行时间限制在某个日期,而不是固定的时间段(例如通常的 5 天)。
有没有办法轻松地做到这一点,或者每天更改 slurm 配置并重新启动 slurm 守护进程?
答案1
SLURM 有一个功能可以使此过程更加简单。该功能称为资源预留,具体而言,它是资源预留的维护功能。
以下使用 scontrol 命令的示例直接取自 SLURM 文档创建预订:
scontrol create reservation starttime=2009-02-06T16:00:00 \
duration=120 user=root flags=maint,ignore_jobs nodes=ALL