我正在测试一些 slurm 配置。我已经能够使用 job_submit.lua 插件设置分区登录:
[root@controller ~]# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
tiny* up 5-00:00:00 3 idle cn[1-40] # 1 core
medium up 5-00:00:00 3 idle cn[1-40] # up to 4 core
large up 5-00:00:00 3 idle cn[1-40] # up to 20 core
我想为每个特定用户设置分区中正在运行的作业数量限制。例如,每个用户最多可以运行每个分区级别的作业数量:
200 running tiny jobs
50 medium jobs
10 large jobs
答案1
我明白了,并认为这可能会对其他人有用,以防他们搜索类似的东西:
sacctmgr -i modify user where name=vagrant partition=tiny set maxjobs=200
sacctmgr -i modify user where name=vagrant partition=medium set maxjobs=50
sacctmgr -i modify user where name=vagrant partition=large set maxjobs=10