Infiniband 适配器关闭

Infiniband 适配器关闭

编辑:在 CentOS 8.5 上,尝试使用 Mellanox 驱动程序 4.9-4.1.7.0(旧版)和 5.5-1.0.3.2:

我无法使我的 Infiniband 适配器工作。输出ibstat表明它已关闭:

    CA‘mlx5_0’
        CA 类型: MT4123
        端口数: 1
        固件版本:20.31.1014
        硬件版本:0
        节点 GUID:0xb8cef60300a7fbbc
        系统映像 GUID:0xb8cef60300a7fbbc
        端口 1:
            状态:向下
            身体状况: 残障
            评分:10
            底盖:65535
            最低管理成本:0
            SM 盖子:0
            功能掩码:0x2651e848
            端口 GUID:0xb8cef60300a7fbbc
            链路层:InfiniBand

mlxlink -d mlx5_0输出:

Operational Info
----------------
State                           : Disable
Physical state                  : ETH_AN_FSM_ENABLE
Speed                           : N/A
Width                           : N/A
FEC                             : N/A
Loopback Mode                   : N/A
Auto Negotiation                : ON

Supported Info
--------------
Enabled Link Speed              : 0x00000075 (HDR,EDR,FDR,QDR,SDR)
Supported Cable Speed           : 0x00000007 (QDR,DDR,SDR)

Troubleshooting Info
--------------------
Status Opcode                   : 1036
Group Opcode                    : MNG FW
Recommendation                  : Connected wrong module type. Change to a different module type.

所以我这里有一个故障排除信息,我只是不明白。我很确定电缆已连接,可能是 Connect-X 3(opensm 服务运行的地方)和 Connect-X 6 适配器之间存在一些不兼容性?

编辑:

适配器通过 Mellanox SX6012 交换机连接。

的输出ibcheckstate -v如下所示。端口 1 是运行 opensm 的节点,缺少带有 ConnectX-6 适配器的新节点的端口。

# Checking Switch: nodeguid 0x248a070300ccc140
Node check lid 2:  OK 
Port check lid 2 port 1:  OK 
Port check lid 2 port 2:  OK 
Port check lid 2 port 3:  OK 
Port check lid 2 port 4:  OK 
Port check lid 2 port 5:  OK 

# Checking Ca: nodeguid 0x0cc47affff5fb364
Node check lid 4:  OK 
Port check lid 4 port 1:  OK 

# Checking Ca: nodeguid 0x0cc47affff5fb8e4
Node check lid 6:  OK 
Port check lid 6 port 1:  OK 

# Checking Ca: nodeguid 0x0cc47affff5fb4c4
Node check lid 5:  OK 
Port check lid 5 port 1:  OK 

# Checking Ca: nodeguid 0x0cc47affff5fb89c
Node check lid 3:  OK 
Port check lid 3 port 1:  OK 

# Checking Ca: nodeguid 0x248a070300f97f50
Node check lid 1:  OK 
Port check lid 1 port 1:  OK 

*** WARNING ***: this command is deprecated

## Summary: 6 nodes checked, 0 bad nodes found
##          10 ports checked, 0 ports with bad state found

该电缆至少可以与 ConnectX-4 适配器配合使用。

相关内容