我计划构建一个基于 Debian 11、Slurm 和各种硬件的新计算机集群。集群将使用 PXE 从网络位置启动。预计集群会随着时间的推移而扩展,因此我希望能够灵活地轻松添加任意数量的新节点。
然而,我对 slurm 并不是很有经验;我对能够在配置文件中配置节点的见解 - 是否有更好(=更动态)的方法?此外,由于节点是“无盘”的,它们不一定天生就有主机名,它们将从 DHCP 获取 IP 地址,这使得提前配置集群变得更加困难。我想一定有办法来管理这个吗?
我尝试在这里和谷歌上搜索这个问题,但自 2000 年代初以来,它似乎并不是一个受到太多关注的主题。
答案1
首先,我将配置 DHCP 服务器来为集群中的每台服务器分配主机名和可能的 IP 地址。使用服务器的 MAC 地址可以轻松完成此操作。
您有几个主机名模板选项。由于 Slurm 支持在配置文件和命令中使用数字范围,因此使用node001
、node002
等名称将使生活更轻松,并且最多允许 999 个节点。这允许像sinfo -n node[001-010]
.请注意,主机名的数字部分后面不能有任何字符。
如果您的站点有不同的命名约定,您可以将别名放入 slurm 配置文件中。
NodeName=node001 NodeHostName=org-slurm-001