我有一台运行 CentOS 7 的 17 个节点的 HPC 和一个专用的 Mellanox SX6036 Infiniband 交换机,每个节点都有一个 Infiniband FDR 接口。
最近,一个节点开始出现错误,快速查看后发现 ib0 IPoIB 接口已关闭。
4: ib0: <NO-CARRIER,BROADCAST,MULTICAST,UP> mtu 4092 qdisc pfifo_fast state DOWN mode DEFAULT group default qlen 256
link/infiniband 80:00:02:08:fe:80:00:00:00:00:00:00:f4:52:14:03:00:f6:7c:41 brd 00:ff:ff:ff:ff:12:40:1b:ff:ff:00:00:00:00:00:00:ff:ff:ff:ff
因此我检查了 ibstat 输出。
[root@node12 ~]# ibstat
CA 'mlx4_0'
CA type: MT4099
Number of ports: 1
Firmware version: 2.36.5000
Hardware version: 1
Node GUID: 0xf452140300f67c40
System image GUID: 0xf452140300f67c43
Port 1:
State: Active
Physical state: LinkUp
Rate: 56
Base lid: 22
LMC: 0
SM lid: 23
Capability mask: 0x02594868
Port GUID: 0xf452140300f67c41
Link layer: InfiniBand
看到两个相互矛盾的东西后,我开始检查我能检查到的东西。从简单的东西开始,我检查了链接灯,所有灯都亮了,然后尝试了重新启动、换了一根新电缆和一张不同的(已知能正常工作的)卡,但都没有任何变化,尽管我并不指望它们会有什么变化。我还检查了交换机,并验证了接口的逻辑和物理状态都显示良好。最后,我检查了其他节点上的配置,以验证它们是否与损坏节点上的配置相匹配。由于所有节点都从同一个网络映像启动,我为此使用了 Bright CM,我本来以为不会有什么变化,但我没有发现任何变化。
所以我又一次谈到这里。我不是 Infiniband 专家,所以如果有人有任何想法,我很乐意听取。