对于这个模糊的问题,我提前致歉...我们基础设施中的几台服务器最近表现异常。例如,一台机器会变得完全没有响应,我们无法远程运行停止响应的应用程序等。当这种情况发生时,我们通常必须在生产过程中重新启动它们。
当我们查看性能计数器时,我们发现 CPU 利用率低于 50%,内存利用率低于 50%。我将以一台机器为例,它有 24 个核心(英特尔)和 32 GB 的 RAM。磁盘是 Raid 10 400GB 10k SAS(4 个磁盘)。
IO 看起来不错,网络看起来不错,等等。我查看的所有计数器均未显示任何问题。磁盘队列长度甚至从未达到 1。
即使当我尝试启动应用程序(例如 mmc.exe)时机器有响应,也需要 5 分钟才能显示。
所有机器都运行安装了最新补丁的 Server2012R2。我们运行的是卡巴斯基企业版,但在禁用/卸载/完全运行该软件的情况下,仍能重现此行为。
例如,我会尝试连续打开 MMC、Chrome 和 Powershell。几分钟后,服务器将无所事事。然后,这 3 个应用程序突然几乎同时打开。
我现在完全不知所措。我不知道该看什么才能确定这些服务器出了什么问题。