我们每天会经历 N 次 10% 的损失,持续时间不定,有时甚至长达数小时

我们每天会经历 N 次 10% 的损失,持续时间不定,有时甚至长达数小时

我们管理着大约 350 台服务器,分布在几个不同的机柜中。有时在一段时间内,整个机柜的 ping 和会话丢失率会达到 10%。很明显,服务器没有问题,因为问题同时从机柜内的所有服务器开始,并同时结束。(我们正在其中一个机柜中使用专用服务器监控服务器)

此外,我们还读取了 80 兆比特的流量,我们认为这不正常。但有趣的是,午夜过后,流量应该在 20 兆比特左右,当出现此问题时,我们读取到 80 兆比特;中午时分,当出现此问题时,我们再次读取到 80 兆比特,而正常流量应该在 60 兆比特左右。

80Mbit 读取时,我们会出现 ping 问题

DC 说他们的路由器、交换机等没有问题。他们说服务器有问题,但是当我们检查服务器时,负载接近 0 或 0.5。

所以我们被困住了,他们不接受甚至不评论这个问题。我们真的需要至少对此发表评论,我们相信这是这个问题的真正出处。希望你对此发表评论。

更新(7 月 15 日);现在 DC 告诉我(我不知道这个解释有多愚蠢)电缆可以连接到 100 MBit 端口。我不知道任何 DC 是否还留有 100 Mbit 端口,但这就是他们的解释。这是新图表;

最新图表,问题持续了 2 个小时

非常感谢

答案1

有可能是连接到机架交换机的某个设备的 NIC 有问题,导致间歇性地出现问题(并使该段充斥着垃圾信息)。或者,有可能是交换机存在问题(尽管数据中心操作员说了是这样的),也可能是电缆有问题。

如果可能的话,在发生大量数据包丢失时,请检查交换机上的指示灯。大多数交换机都会指示由故障 NIC 发送乱码流量引起的异常(尽管它们指示的方式各不相同,通常指示连接的指示灯会闪烁或出现其他情况,但无论如何它都会是异常的)。

也可能有其他东西导致大量流量泛滥;考虑运行 tcpdump 或其他程序来查看是否可能发生 DoS。网络拥塞时丢包是正常现象。

相关内容