HPC 主节点对计算节点没有无限带宽网络影响 - Slurm 管理

HPC 主节点对计算节点没有无限带宽网络影响 - Slurm 管理

我写这封信是因为我遇到了一个问题,我无法解决该问题,尝试将具有主节点(或前端节点)的集群配置为虚拟机,管理具有无限带宽网络的节点。

我在这个节点上使用 slurm,前端节点是 slurm 控制器。

每个计算节点都有以太网和无限带宽接口,主节点(或前端节点)只有以太网接口。

当我从前端 VM 节点启动作业时,计算节点网络流量(它们之间)正在通过以太网接口,我还没有找到强制使用 Infiniband 接口的方法。

我发现从计算节点而不是 VM 前端启动作业可以解决问题!有没有办法强制使用 IB 接口?我这里遗漏了什么?

任何想法都值得赞赏。

谨致问候,Simo

答案1

我是 HPC 领域的新手,英语不是我的母语...但我的猜测是通过加权路线来实现:

在每台机器中为 IB 网段分配路由,为接口分配非常低成本的路由,为 IB 接口分配所有其他价格较高的网段(反之亦然:为 IB 段分配权重非常高的以太网)。

这里提到的分割访问类型:

https://tldp.org/HOWTO/Adv-Routing-HOWTO/lartc.rpdb.multiple-links.html

我看到的唯一缺点是 SSH 流量可能通过 infiniband 而不是以太网发送,但一定有一个解决方法。

相关内容