在集群上设置 slurm

在集群上设置 slurm

我的 IT 管理员设置了一个有 3 个节点的集群,该集群通过 Windows 服务器进行管理。虚拟机通过 Hyper-V 托管,包括一个 Ubuntu VM,集群的大部分资源都已分配给该 VM。是否有人在 Hyper-V 上托管的 Linux VM 上设置 slurm 进行作业调度方面有经验/成功经验?我在网上找到的设置 slurm 的现有示例似乎不起作用,并出现一连串错误。如果有人能告诉我设置 slurm 的一些常规步骤,我将不胜感激。

编辑:添加了一些我在下面看到的错误......

我收到的错误包括:当我控制 ping 时:** 将 SLURMCTLD 守护进程恢复为服务 **

对于 sinfo --Node --long slurm_load_partitions:无法联系 slurm 控制器(连接失败)

scontrol show daemons 确实有效,返回:slurmctld slurmd

但是,scontrol show config 给我:slurm_load_ctl_conf 错误:无法联系 slurm 控制器(连接失败)

我最近在其他机器上成功设置了 slurm,从未遇到过此类错误。我尝试用谷歌搜索这些问题,但到目前为止,我在论坛上看到的任何建议都没有找到。

相关内容