聚合 2 个网卡的“合法”ARP 中毒使我们崩溃

聚合 2 个网卡的“合法”ARP 中毒使我们崩溃

奇怪的事情正在发生,威胁正在出现,我们需要解决这个问题;

情况:

我们的设备(网络摄像机)通过网络将视频流传输到录像机/服务器(使用 Live555 / WIS Streamer)。视频是UDP数据包。

在使用一台特定服务器的特定站点上,Live555 流媒体的一个线程每隔一段时间(约 24 小时)就会在发送视频时锁定。其他线程继续运行,我们仍然可以通过 IP 连接到摄像头 - 查看其中的网页、PING 它等。

我们怀疑: 服务器;它有 2 个网络端口并将它们聚合起来 - 它有两个 MAC,但有一个 IP 地址。在进行wireshaking时,我们看到摄像头流向一个端口(我们称之为A),然后我们从另一个端口(我们称之为B)获得一个ARP,我们的设备停止向MAC A喷射数据包,向线路上喷射一个数据包到 MAC B,然后似乎停了下来。

更多信息:服务器似乎损坏了来自“错误”端口的 ARP 数据包,可能是由于配置错误等原因,但这些数据包仍然会被我们的设备读取并执行操作,可能是由于我们的驱动程序或内核网络配置错误或跳过校验和以节省 CPU 周期。

因此,这种混乱的情况引出了几个问题:

  1. 我应该在内核网络代码中的哪个位置检查数据包校验和或启用检查?我们的硬件是固定的,作为嵌入式设备,因此对驱动程序进行调整并不是最糟糕的主意。
  2. send()当进程不断在端口上获取数据并且 ARP 表在其下方移动时,有人能猜出导致进程锁定的故障机制吗?

编辑添加:我们现在怀疑 ARP 并没有真正损坏,只是 Wireshark 没有正确识别数据包(它认为数据包足够长,必须有一个 FSC 字,但我们现在认为它只是零填充)。这就只剩下这个问题的第二部分了:我们能做些什么来防止 ARP 表中的这种更改导致传输进程崩溃?

编辑以进一步添加:我不希望人们认为我忽略了有关端口状态或进程状态的问题,这个问题很少发生(平均可能每 24 小时一次),并且仅发生在我们无法轻松访问的一个(远程)安装上,我们正在努力在实验室中复制它,以便我们可以进行更详细的诊断,但系统看门狗会在问题发生后约 3 分钟内重置,因此当我们收到消息时,它已经重新启动并开始正常工作。

编辑添加 Wireshark 信息:我不确定这里总结wireshark捕获的最佳方法(很难上传〜1Tb捕获的数据包!)但我会尝试。Cam:X&Cam:Y是两个 RTSP 视频流,由两个相同的 Live555 WIS Streamer 实例从不同端口传输。服务器“A”和“B”是服务器上两个网卡的 MAC。

数据包的顺序如下:

UDP Packet from Cam:X -> Server 'A'
UDP Packet from Cam:Y -> Server 'A'
UDP Packet from Cam:X -> Server 'A'
UDP Packet from Cam:Y -> Server 'A'
UDP Packet from Cam:X -> Server 'A'
UDP Packet from Cam:Y -> Server 'A'
ARP Packet to Cam from Server 'B' "<my IP> is now on 'B'"
Intel ANS Probe broadcast from Server 'B', Sender ID '1' team ID 'B'
Intel ANS Probe broadcast from Server 'A', Sender ID '2' team ID 'B'
<silence> from Cam:X
UDP Packet from Cam:Y -> Server 'B'
UDP Packet from Cam:Y -> Server 'B'
UDP Packet from Cam:Y -> Server 'B'

此时或附近,流中没有其他数据包。英特尔 ANS 数据包并不总是与来自 NIC 的 ARP 一致,但为了完整起见,我想将它们包括在内。

这个问题似乎对时间非常敏感,我们定期从服务器看到这些“团队”ARP,并且只有一次它们才会给我们带来问题 - 就好像网络堆栈代码中有一个特定点对ARP 表改变。失败的流实例并不总是相同,尤其是另一个实例(以及所有其他网络流量 - HTTP 等)继续正常工作。

听起来,成组的 NIC“不应该”像这个会话中那样进行 ARP,但是当流量全部为 UDP 时,它们当然不会知道任何会话。

答案1

好吧,如果只是给一些关闭为此,客户重新配置了他们的狡猾的网卡并且一切正常,因此不幸的是,对于好奇的人来说,这意味着没有人会付钱给任何人来仔细研究可以采取哪些措施来解决该问题。

相关内容