SLURM 分区配置:挂起和重新排队

SLURM 分区配置:挂起和重新排队

我在配置我们的 SLURM 服务器时遇到了一些困难。我想要有几个队列(分区),以便短队列具有更高的优先级,并且作业可以立即暂停或重新排队较低优先级的作业。

这个想法是有 4 个队列:

  • 无限:无限时间的工作。所有节点都在。最低优先级。如果较高优先级队列中的作业需要某个节点,则重新排队作业。
  • 批次:24小时工作。所有节点都在。优先级高于上面。如果较高优先级队列中的作业需要某个节点,则重新排队作业。
  • 简短:4小时的工作。 3 个节点(与之前的分区共享)。优先级高于上面。如果较高优先级队列中的作业需要某个节点,则挂起作业。
  • cpupower:1小时工作。 1 个节点(我们场中最好的一个,并与以前的分区共享)。最高优先级。除非此类作业太多,否则应进入此队列。

通过查看手册,我认为以下内容可行,但作业永远不会暂停或重新排队。

PartitionName=infinite Nodes=ALL              Default=NO  MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch    Nodes=ALL              Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short    Nodes=node[001,002,0032] Default=NO  MaxTime=4:00:00  Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003           Default=NO  MaxTime=1:00:00  Priority=40 OverSubscribe=NO      PreemptMode=off     State=UP

也许还需要其他东西?

相关内容