SLURM 允许使用比请求更多的 CPU 的作业启动

Question 1

Slurm 无法知道脚本将创建多少个进程/线程。它只能依靠请求的资源，因此它用它来安排作业。

这里最好的方法是使用 Slurm 中的任何亲和力插件来防止作业使用超过请求的资源。此插件将作业绑定到请求的 CPU。（亲和性文档）

显然，您无法控制用户在其脚本中启动了多少个进程/线程，但限制作业可以使用的核心数量将减少不受控制的用户对其他用户作业造成的影响。

这不会阻止您的系统出现超载现象，但“坏”用户只会影响他们自己。

Answer

Slurm 无法知道脚本将创建多少个进程/线程。它只能依靠请求的资源，因此它用它来安排作业。

这里最好的方法是使用 Slurm 中的任何亲和力插件来防止作业使用超过请求的资源。此插件将作业绑定到请求的 CPU。（亲和性文档）

显然，您无法控制用户在其脚本中启动了多少个进程/线程，但限制作业可以使用的核心数量将减少不受控制的用户对其他用户作业造成的影响。

这不会阻止您的系统出现超载现象，但“坏”用户只会影响他们自己。

Question 2

下列的我们在 SO 上的讨论我一直在尝试使用--exclusive参数来实现这一点。我的架构与您的不同（我有 7 个处理器可用于 slurm），但我所做的如下：

#!/bin/sh
#SBATCH --ntasks=2    
srun -n 2 --exclusive stress -c 1

然后运行

sbatch test.sh ; sbatch test.sh ; sbatch test.sh ; sbatch test.sh

给了我6个stress流程：

15050 tom       20   0    7308    212    108 R 100.0  0.0   1:47.46 stress                                                                                                              
15054 tom       20   0    7308    208    108 R 100.0  0.0   1:47.47 stress                                                                                                              
15063 tom       20   0    7308    208    108 R 100.0  0.0   1:47.47 stress                                                                                                              
15064 tom       20   0    7308    212    108 R 100.0  0.0   1:47.47 stress                                                                                                              
15080 tom       20   0    7308    208    108 R 100.0  0.0   1:47.46 stress                                                                                                            
15076 tom       20   0    7308    212    108 R  99.7  0.0   1:47.45 stress

最后一个在队列中等待：

     JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
      2368       Tom  test.sh      tom PD       0:00      1 (Resources)
      2365       Tom  test.sh      tom  R       5:03      1 Tom
      2366       Tom  test.sh      tom  R       5:03      1 Tom
      2367       Tom  test.sh      tom  R       5:03      1 Tom

因此，在这种情况下，使用srun -n 2会导致同一进程启动两次。如果我使用，也会发生同样的事情

#!/bin/sh
#SBATCH --ntasks=2
srun -n 1 --exclusive stress -c 1 &
srun -n 1 --exclusive stress -c 1 &
srun -n 1 --exclusive stress -c 1 &
wait

即 SLURM 知道这个批处理脚本有两个任务，所以它会让两个任务同时运行；第三个任务必须“等待轮到它”。

另一方面

#!/bin/sh
#SBATCH --ntasks=1
srun -n 1 --exclusive stress -c 2

给我你在问题中描述的行为。

不确定这是否能完全回答你的问题但也许有一点帮助。

Answer