在 Infiniband 网络中,什么是 MGID,它与多播组有何关系?

在 Infiniband 网络中,什么是 MGID,它与多播组有何关系?

我的开放子​​网管理器日志中出现此错误。

Sep 22 01:49:53 router3-1 docker[12431]: Sep 22 01:49:53 089580 [68860700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10c37b1f7ebb0001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:180b:1493:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:49:57 router3-1 docker[12431]: Sep 22 01:49:57 328091 [6585A700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3ac0001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:1868:c9d6:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:04 router3-1 docker[12431]: Sep 22 01:50:04 973005 [60850700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3a60001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:9811:7b48:ff7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:05 router3-1 docker[12431]: Sep 22 01:50:05 291935 [5F04D700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3a40001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:88f3:3bdf:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:09 router3-1 docker[12431]: Sep 22 01:50:09 699903 [6685C700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10c37b1f7e110001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:787e:40cb:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:22 router3-1 docker[12431]: Sep 22 01:50:22 389193 [63856700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3f00001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:c867:44ab:fe7f:0, insufficient components specified for implicit create (comp_mask 0x10083)

这种现象经常发生。

该问题与此处提交的以下错误报告非常相似: https://bugzilla.redhat.com/show_bug.cgi?id=1138851

在该特定报告中,错误针对的是 NTP mcast 组。
即 MGID ff12:401b:ffff::101,其中 101 以某种方式被解释为 224.0.1.1,并且他们说它是 NTP。

101 是怎么变成这样的?MGID 又是什么?

在我的情况下,显示的 MGID 是:ffff:0:ffff:0:c867:44ab:fe7f:0

这是否相当于 224.0.0.0?它声称是保留的。这里发生了什么?

答案1

关于ff12:401b:ffff :: 101,我们可以参考RFC-5156并看到 ff00::/8 是多播地址。查看RFC-4291,ff12:... 被分解为其中 ff 表示多播,而 12 被分解为标志 0x1 和范围 0x2。标志 0x1 是“非永久分配(“瞬时”或“动态”分配)多播地址”,而范围 0x2 是链路本地。

接下来的两组 401b:ffff:: 定义子网的长度。然后,根据RFC-3306,最后四个字节是组 ID,在本例中为 0x101。根据RFC-2375。这可能并非巧合,这与 IPv4 NTP 多播地址 224.0.1.1 的最后两个字节相匹配(RFC-5771)。

MGID 只是一个多播组 ID。您已在 IB 接口上配置了 IP over InfiniBand (IPoIB),并配置了 IP 地址(键入“ip addr”以列出您的接口和相关地址 - 您将在任何接口上获得 IPv6 链接本地地址。)现在,您的 NTP 服务器正在运行、多播流量,并伺机尝试使用任何接口 - 因此在您的 IB 网络上进行多播。

您的地址有很大不同 - 不是标准的 IPv6 多播地址,因为 FFFF:... 是保留的。但是,通常快速的解决方法是简单地重新启动 OpenSM,问题就会消失。

相关内容