对 Windows 2003 中的网络连接丢失进行故障排除 - 还要检查什么?

对 Windows 2003 中的网络连接丢失进行故障排除 - 还要检查什么?

我们的数据中心遇到了一个奇怪的问题。我们的备份服务器(运行 EMC Networker)每隔一天凌晨 3:00 左右就会失去网络连接(备份计划从午夜开始)。中断 2 小时后,网络连接会自动恢复正常。

我们的观察结果:

这不太可能是网络问题,因为它直接连接到服务器群交换机(第 2 层连接,没有任何中间跳转)。此外,服务器连接到两个不同的交换机,使用 Broadcomm Teaming 进行负载平衡。

a) 如果是与交换机相关的问题,则两个网络端口不太可能都关闭,因为它们连接到不同的交换机。

b) 由于同一 Vlan 中的其他设备都没有问题,因此也排除了 Vlan 范围问题的可能性。

c) 交换机接口状态始终为开启。但在停机期间会出现大量丢包 - 这可能是由于备份服务器的接口利用率较高(接近 100%)

d) 连接恢复,网络没有任何变化。

下一个怀疑对象是 Windows 服务器上的资源利用率。CPU 和内存都很少超过 80%,但 NIC 卡利用率却高得惊人(接近 100%)

不太清楚该如何调查此事?

答案1

我怀疑是驱动程序问题或双工不匹配。尝试升级驱动程序并检查两端的双工是否相同。还请检查交换机的以太网统计信息(如果有错误、冲突等...)。

含义失去网络连接? 不可达,但接口已启动?可达,但有大量数据包丢失?

答案2

您是否尝试过更换网卡?

答案3

您如何判断它失去了网络连接?您到底是什么意思?是否有东西在监控它并告诉您无法连接?事件日志中是否有任何内容?如果有,是什么?

如果网络利用率很高,也就是说已经达到饱和状态,您可能会看到似乎断开了连接的情况。但是根据您的描述很难判断。不过我猜是您的备份作业正在最大化您的管道。您有每隔一天运行一次的备份作业吗 :)

答案4

这是什么样的开关?

当此特定问题发生时,同一交换机上的其他设备是否遇到任何通信问题?尽管这种情况很少见且不太可能,但您可能会耗尽该交换机上的有限资源,并在某种意义上让自己陷入 DOS 攻击。

此外,如果您已建立机制来防止 DOS 攻击,它们可以从本质上将有问题的服务器置于黑洞中,直到使用模式恢复正常。

相关内容