我正在使用一个由 13 台计算机组成的集群,该集群在 Windows Server 2012 R2 上运行,使用 MS HPC Pack 2012 R2。头节点运行正常。服务器通过标准适配器上的 IPv4 连接到公司网络。但是,节点也通过 infiniBand 相互连接。
一周前,集群被移至一个新域,主机名相同。FQDN 当然发生了变化,并且它在大多数方面都运行正常,只是现在所有 12 个计算节点上的 Network Direct 都设置为 false。
迁移后,头节点重新安装了所有 HPC 组件。节点保持不变。由于我认为这是启用 Network Direct 的原因,我还尝试在其中一个节点上重新安装 HPC。但这并没有解决问题。
所有节点(包括头节点)的所有级别上的 Windows 防火墙均已关闭。
在
- 头节点上的 ifiniBand 适配器:Mellanox ConnectX-3 Pro IPoIB 适配器
- 节点上的 inifiniBand 适配器:HP 10Gb/40Gb 2 端口 544+FLR-QSFP IPoIB 适配器
服务器响应为 infiniBand 适配器设置的 IP 上的 PING 请求。
有人对此有什么想法吗?提前致谢。
答案1
将 Mellanox NIC 刷入以太网,让一切可靠运行。Windows 上的 InfiBand 真是太麻烦了!