编辑:在 CentOS 8.5 上,尝试使用 Mellanox 驱动程序 4.9-4.1.7.0(旧版)和 5.5-1.0.3.2:
我无法使我的 Infiniband 适配器工作。输出ibstat
表明它已关闭:
CA‘mlx5_0’ CA 类型: MT4123 端口数: 1 固件版本:20.31.1014 硬件版本:0 节点 GUID:0xb8cef60300a7fbbc 系统映像 GUID:0xb8cef60300a7fbbc 端口 1: 状态:向下 身体状况: 残障 评分:10 底盖:65535 最低管理成本:0 SM 盖子:0 功能掩码:0x2651e848 端口 GUID:0xb8cef60300a7fbbc 链路层:InfiniBand
并mlxlink -d mlx5_0
输出:
Operational Info
----------------
State : Disable
Physical state : ETH_AN_FSM_ENABLE
Speed : N/A
Width : N/A
FEC : N/A
Loopback Mode : N/A
Auto Negotiation : ON
Supported Info
--------------
Enabled Link Speed : 0x00000075 (HDR,EDR,FDR,QDR,SDR)
Supported Cable Speed : 0x00000007 (QDR,DDR,SDR)
Troubleshooting Info
--------------------
Status Opcode : 1036
Group Opcode : MNG FW
Recommendation : Connected wrong module type. Change to a different module type.
所以我这里有一个故障排除信息,我只是不明白。我很确定电缆已连接,可能是 Connect-X 3(opensm 服务运行的地方)和 Connect-X 6 适配器之间存在一些不兼容性?
编辑:
适配器通过 Mellanox SX6012 交换机连接。
的输出ibcheckstate -v
如下所示。端口 1 是运行 opensm 的节点,缺少带有 ConnectX-6 适配器的新节点的端口。
# Checking Switch: nodeguid 0x248a070300ccc140
Node check lid 2: OK
Port check lid 2 port 1: OK
Port check lid 2 port 2: OK
Port check lid 2 port 3: OK
Port check lid 2 port 4: OK
Port check lid 2 port 5: OK
# Checking Ca: nodeguid 0x0cc47affff5fb364
Node check lid 4: OK
Port check lid 4 port 1: OK
# Checking Ca: nodeguid 0x0cc47affff5fb8e4
Node check lid 6: OK
Port check lid 6 port 1: OK
# Checking Ca: nodeguid 0x0cc47affff5fb4c4
Node check lid 5: OK
Port check lid 5 port 1: OK
# Checking Ca: nodeguid 0x0cc47affff5fb89c
Node check lid 3: OK
Port check lid 3 port 1: OK
# Checking Ca: nodeguid 0x248a070300f97f50
Node check lid 1: OK
Port check lid 1 port 1: OK
*** WARNING ***: this command is deprecated
## Summary: 6 nodes checked, 0 bad nodes found
## 10 ports checked, 0 ports with bad state found
该电缆至少可以与 ConnectX-4 适配器配合使用。