我有一个带有 Slurm 的测试集群,我希望其他用户能够取消其他用户的作业。
默认情况下,用户可以取消自己的作业。如何定义多个管理员?
我的 Slurm 配置是:
ClusterName=Cluster
SlurmUser=user1
SlurmdUser=user1
AuthType=auth/none
CryptoType=crypto/openssl
JobCredentialPrivateKey = /state/partition1/scratch/slurm/confdir/slurm.key
JobCredentialPublicCertificate = /state/partition1/scratch/slurm/confdir/slurm.cert
SlurmctldDebug=3
SlurmdDebug=3
StateSaveLocation=/state/partition1/scratch/slurm/var
SlurmdSpoolDir=/state/partition1/scratch/slurm/var/slurmd.%n
SlurmctldPidFile=/state/partition1/scratch/slurm/var/slurmctld.pid
SlurmdPidFile=/state/partition1/scratch/slurm/var/slurmd.%n.pid
SchedulerType=sched/backfill
JobCompType=jobcomp/filetxt
AccountingStorageType=accounting_storage/filetxt
AccountingStorageLoc=/state/partition1/scratch/slurm/var/accounting
JobCompLoc=/state/partition1/scratch/slurm/var/job_completions
FastSchedule=1
SlurmctldLogFile=/state/partition1/scratch/slurm/var/slurmctld.log
SlurmdLogFile=/state/partition1/scratch/slurm/var/slurmd.%n.log
ReturnToService=1
PriorityType=priority/multifactor
答案1
只有操作员或管理员可以取消其他用户的作业:
查看scancel
SLURM 文档中的部分内容(在授权下)。
https://slurm.schedmd.com/scancel.html#lbAH
当使用 Slurm db 时,具有定义的 AdminLevel(操作员或管理员)的用户和作为帐户协调员的用户被赋予对其他用户的作业调用 scancel 的权限。