Infiniband:ibping 可以工作,但没有 ib0 接口

Infiniband:ibping 可以工作,但没有 ib0 接口

(重定向自 NetworkEngineering)

我有许多 Infiniband 连接的服务器,它们都报告其 ib0 网络连接在几个小时内从 ip 和 ifcfg 中消失。我尝试重新启动其中一台服务器,但没有成功,它再次以完全相同的方式出现。

ibstat 和 ibstatus 显示 IB 卡处于活动状态,我可以使用 ibping 访问没有 ib0 接口的节点,但 ib 网络不可用(显然看不到)。我检查了 lsmod 中所有与 ib_ 相关的条目,它们看起来没问题。

有趣的是,我在 dmesg 中发现了这一点,但不幸的是在网上找不到任何与该问题相符的东西:

Mellanox Connect-IB Infiniband driver v4.7-1.0.0
Request for unknown module key 'Mellanox Technologies signing key:  err -11
mlx5_0: ipoib_transport_dev_init failed
ib0 failed to init HW resource
mlx5_0: failed to initialize device: ib0 port 1 (ret = -12)
mlx5_0: couldn't register ipoib port 1; error -12```

相关内容