在同一个 Slurm Worker 上并行运行多个作业

Question

几天来，我遇到了同样的问题，无论我将什么放入批处理文件中，SLURM 每个节点都只能运行一个作业。以下设置组合最终让我能够在单个节点上运行多个批处理。

开始之前，请确保没有正在运行的作业并删除节点。请参阅有关 service 与 systemctl 的更多信息，请参阅此答案在大多数 Linux 系统上都可以这样做。

sudo service slurmd stop
sudo service slurmctld stop

在 /etc/slurm-llnl/slurm.conf 中（位置可能不同）

...
SelectType=select/cons_res
SelectTypeParameters=CR_Core
...
NodeName=a NodeAddr=192.168.1.2 CPUs=16 Sockets=2 CoresPerSocket=4 ThreadsPerCore=2 RealMemory=12005 State=UNKNOWN

这显然特定于一个特定节点，您的节点会有所不同。但如果节点配置不正确，SLURM 可能会返回有关资源不可用的错误。要获取有关您的节点的可靠信息，请在每个节点上尝试以下操作：

sudo slurmd -C

然后使用其输出在控制器的 slurm.conf 文件中定义每个节点。设置完成后，重新启动 SLURM 并向其发送一些测试批次，以查看它们是否正确分布在各个节点上。

sudo service slurmd start
sudo service slurmctld start

Answer 1