我在运行 Dell R710 的 Windows Server 2008 R2 物理服务器上偶尔(每天 2 或 3 次)看到“连接断开”。我使用术语“连接断开”是因为我不知道如何用其他方式描述它,但我的意思是:
- 服务器停止响应 ping
- 任何 RDP 连接(或其他类型的远程连接)都将停止并最终超时
- 与此服务器上运行的 SQLS 数据库或 IIS 的任何连接都将停止/超时
这似乎持续 30 秒到 1 分钟。此后,服务器恢复运行,响应 ping 并恢复所有服务,就像什么事都没发生过一样。
该服务器运行以下服务:
- SQL Server 2005 数据库(2 个数据库和报告)
- IIS7 网络服务器(运行 2 个自定义服务和 1 个报告站点)
显然,我想找出导致这种情况的原因。在服务器的事件日志或其他监控参数中,我看不到任何表明特定问题的信息。有什么提示可以缩小导致此问题的原因吗?
值得考虑以下事实:
- 我们有另外 5 台服务器(其中 3 台 R410)在同一机架、同一网络上运行,但似乎都没有出现此问题
- 进程管理器中性能视图中的句柄数约为 40,000 个句柄(其中 lsass.exe 似乎占用了约 7000 个)
- 我尝试重新启动 IIS,以查看自定义服务是否以某种方式导致了此问题;这意味着在接下来的几天/几周内我不会再看到此问题
更新 1:发生此问题时,DRAC 仍可访问。这是一个非常奇怪的问题。我认为我们必须通过尝试各种解决方案并检查结果来反复试验。
更新 2:我已经和网络人员谈过了,他们确认由于某种原因,我们的服务器的 MAC 地址不断被已删除来自交换机的 ARP 表。目前尚不清楚造成这种情况的确切原因(可能是连接服务器和交换机的电缆有问题,或者网卡一直处于休眠状态)。我们已开始对默认网关进行连续 ping,并希望更换电缆。
答案1
如果您在此机器上使用多个 NIC,请确保只定义了一个默认网关。
我们最近遇到了类似的问题,结果是用于后端网络 (192.168.xx) 的 NIC 指定了默认网关。
答案2
如果您登录到控制台它是否仍然响应?
在受影响机器的 NIC 上进行数据包捕获。Wireshark 或 Netmon。这将告诉您在此期间机器的 TCP/IP 流量发生了什么。