我写这封信是因为我遇到了一个问题,我无法解决该问题,尝试将具有主节点(或前端节点)的集群配置为虚拟机,管理具有无限带宽网络的节点。
我在这个节点上使用 slurm,前端节点是 slurm 控制器。
每个计算节点都有以太网和无限带宽接口,主节点(或前端节点)只有以太网接口。
当我从前端 VM 节点启动作业时,计算节点网络流量(它们之间)正在通过以太网接口,我还没有找到强制使用 Infiniband 接口的方法。
我发现从计算节点而不是 VM 前端启动作业可以解决问题!有没有办法强制使用 IB 接口?我这里遗漏了什么?
任何想法都值得赞赏。
谨致问候,Simo
答案1
我是 HPC 领域的新手,英语不是我的母语...但我的猜测是通过加权路线来实现:
在每台机器中为 IB 网段分配路由,为接口分配非常低成本的路由,为 IB 接口分配所有其他价格较高的网段(反之亦然:为 IB 段分配权重非常高的以太网)。
这里提到的分割访问类型:
https://tldp.org/HOWTO/Adv-Routing-HOWTO/lartc.rpdb.multiple-links.html
我看到的唯一缺点是 SSH 流量可能通过 infiniband 而不是以太网发送,但一定有一个解决方法。