如果问题发生,则发生在上午 10 点,从开始到恢复稳定大约持续 1 分钟。这种情况并不是每天都会发生。在这一分钟内,ping 值会急剧上升,数据包开始丢失,然后 ping 值稳定下来,数据包停止丢失,一切又恢复正常。这种情况发生在我们的 wifi 上,以至于 wifi 用户实际上失去了互联网连接,有线网络上可以看到问题的迹象,但不会对人们真正注意到的程度产生影响。我们有来自不同提供商的双互联网连接,以循环方式配置,它似乎并不关心我们在使用哪个提供商。
我们通过 IT 的自动化流程进行了审计,没有发现任何在上午 10 点运行的程序。我们尝试过监视网络,但我们的工具有限,似乎没有任何东西明显地穿过防火墙,但我们可能没有进行正确的报告。
此时,我准备安排好我的日程,并在看到问题发生时立即拔掉目标系统的电源,看看是否能阻止问题的发生。
但我想看看是否有人有工具或方法建议。
答案1
我建议你先使用网络分析工具,如tcpdump
和Wireshark
。这样你就会知道这是由网络引起的问题还是物理源问题。
您的网络是否已针对物理环路进行保护(例如,用户可能会无意中将以太网电缆插入两个不同的插座)?如果没有,您将使用上述工具看到有症状的 STP 风暴。
是否有一些电动机在上午 10 点启动,这可能会对任何无线或有线网络造成电磁干扰?如果是这种情况,您会看到很多带有错误校验和的帧。