使用 slurm 更改 pcluster 中计算节点上的 SSH 密钥

使用 slurm 更改 pcluster 中计算节点上的 SSH 密钥

我们的登录节点当前是计算节点之一,驻留在单独的队列中。我们想要在 /etc/ssh 上为该登录节点设置自定义 SSH 密钥。

我们尝试在安装后脚本中引入自定义 SSH 密钥,这可以完成工作,但由于某种原因 slurm 停止工作。当我们尝试提交作业时,它会说: sbatch: error: Batch job submission failed: Invalid account or account/partition combination specified.

systemctl restart slurmctld.service当我在构建完所有内容后在头节点上手动重新启动 slurm 时,此错误就会消失。

root 用户仍然可以提交作业

我们希望这样做,以便我们的用户可以通过我们的域名在节点中进行 ssh,并且每当我们重建集群时它都不会抱怨更改 ecdsa 密钥,因此我们希望维护相同的密钥集。

那么在登录节点上设置自定义 SSH 密钥的最佳方法是什么?

/var/log/slurmd.log

[2023-06-13T04:01:28.145] error: Node configuration differs from hardware: CPUs=2:2(hw) Boards=1:1(hw) SocketsPerBoard=2:1(hw) CoresPerSocket=1:1(hw) ThreadsPerCore=1:2(hw)
[2023-06-13T04:01:28.604] CPU frequency setting not configured for this node
[2023-06-13T04:01:29.003] slurmd version 23.02.2 started
[2023-06-13T04:01:29.844] slurmd started on Tue, 13 Jun 2023 04:01:29 -0400
[2023-06-13T04:01:29.844] CPUs=2 Boards=1 Sockets=2 Cores=1 Threads=1 Memory=3850 TmpDisk=71667 Uptime=324 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null)

经过反复尝试,发现此代码介绍是问题所在,因为它乍一看似乎无关。

相关内容