如何将 Infiniband 端口从 INIT 设置为 ACTIVE

如何将 Infiniband 端口从 INIT 设置为 ACTIVE

我有以下设置。7 个节点,假设它们被称为gauss1。我在和gauss7之间有稳定的连接。只是制造了麻烦。gauss1gauss6gauss7

# ibnodes
Ca  : 0x0002c90300f2eef0 ports 2 "gauss1 mlx4_0"
Ca  : 0x0002c90300f2ef20 ports 2 "gauss2 mlx4_0"
Ca  : 0x7cfe900300be5350 ports 1 "gauss3 mlx4_0"
Ca  : 0x7cfe900300be5170 ports 1 "gauss4 mlx4_0"
Ca  : 0x7cfe900300be51a0 ports 1 "gauss5 mlx4_0"
Ca  : 0x248a070300d8f5c0 ports 1 "gauss6 mlx4_0"
Ca  : 0xec0d9a03002baf50 ports 1 "gauss7 mlx4_0"

因此所有节点似乎都已在交换机上注册。端口状态为gauss1gauss6开启ACTIVE。只有开启 时,gauss7我的端口状态为INIT

ibv_devinfogauss7 上说:

hca_id: mlx4_0
    transport:          InfiniBand (0)
    fw_ver:             2.42.5000
    node_guid:          ec0d:9a03:002b:af50
    sys_image_guid:         ec0d:9a03:002b:af53
    vendor_id:          0x02c9
    vendor_part_id:         4099
    hw_ver:             0x0
    board_id:           MT_1100120019
    phys_port_cnt:          1
        port:   1
            state:          PORT_INIT (2)
            max_mtu:        4096 (5)
            active_mtu:     4096 (5)
            sm_lid:         3
            port_lid:       9
            port_lmc:       0x00
            link_layer:     InfiniBand

我也在 gauss7 上安装了opensm,它说它位于STANDBY

Feb 02 20:15:36 gauss7 opensm-launch[355306]: Using default GUID 0xec0d9a03002baf51
Feb 02 20:15:36 gauss7 OpenSM[355309]: Entering DISCOVERING state
Feb 02 20:15:36 gauss7 opensm-launch[355306]: Entering DISCOVERING state
Feb 02 20:15:36 gauss7 OpenSM[355309]: Entering STANDBY state
Feb 02 20:15:36 gauss7 opensm-launch[355306]: Entering STANDBY state

我的问题:如何设置端口gauss7ACTIVE建立所有 7 个节点之间的连接?

答案1

重新启动 gauss7 解决了该问题。

相关内容