我正在尝试组建一个 SLURM 集群,其中有一个 Odroid XU4 前端(Ubuntu 20.04-5.4 mate)、Odroid MC1 节点(总共 12 个节点:Ubuntu 20.04.1-5.4-minimal)和一个 Odroid HC1 NFS 服务器(OpenMediaVault;带有 Linux 4.14.222-odroidXU4 的 Armbian 21.02.3 Buster)。
我可以查看和更改所有节点的状态并提交作业(使用 slurmR 或 rslurm),并且所有节点都可以访问 NFS 共享工作文件夹(autofs 提供访问权限),但从我收集的信息来看(查看 slurmd.log),所有节点(所有节点上都是同一个用户:slurm)和前端都需要为用户共享一个主文件夹。
我曾尝试将用户(“slurm”)文件(cp -r /home/slurm/.)从 /home/slurm 复制到 /mountfold/homes/slurm(NFS 共享),并在 /home 中创建到 NFS 共享的链接(ln -s /mountfold/homes/slurm),但是当我尝试从 mate 登录屏幕登录时,它只是闪烁并返回登录页面。
我也尝试过(使用链接)adduser 的 --home /home/slurm 选项,然后:chown -R slurm:slurm /home/slurm (其中 /home/slurm 是链接,而不是文件夹)结果相同。
所以...我甚至无法让前端在 NFS 服务器上拥有一个用户主文件夹,更不用说让所有节点为同一个用户共享该文件夹,而且我已经没有主意了。
答案1
事实证明这是一个使用权限的问题:
chmod 774 slurm
/mountfold/homes 中的这个方法有效,因为所有用户都在同一个组中。