我该怎么做才能确定 Windows 服务器挂起/冻结的根本原因?

我该怎么做才能确定 Windows 服务器挂起/冻结的根本原因?

几周前我们在这里建立了一个新服务器,我非正式地负责管理。

几乎所有东西都运行正常,除了一件事:它时不时地会毫无警告地挂起。

关于这次悬挂的一些事实:

  • 它不是一个单一的应用程序或服务;整个系统都没有响应。
  • 什么都没有显示(显示器好像没有 VGA 信号)。
  • 电源 LED 亮起且风扇运转。
  • 按下电源按钮没有任何反应(通常会关闭机器)。
  • Ping 通常都会超时;一旦它做出响应,另一次我就会收到“目标主机不可达”的消息。
  • 从挂起之前到硬重启,事件日志没有显示任何内容(实际上什么都没有)。
  • 不存在性能问题、奇怪的错误或其他导致最终挂起的明显厄运迹象。
  • 该机器通常负载不重(用于开发,而不是生产),并且挂起似乎发生在非高峰时段(午夜至凌晨 6 点之间)。

关于机器/环境的一些其他事实:

  • Windows Server 2008 R2
  • 运行 SQL Server 2008 和 IIS(仅此而已)
  • 所有驱动程序均已更新、补丁已安装等。
  • 没有供应商提供的诊断(不是“顶级”)。
  • 机器是全新的,不只是重新格式化或改变用途。虽然机器刚使用不到一个月,但最近没有变化。

我不指望在这里能得到任何简单的答案。我想知道的是有条不紊确定该问题的根本原因,可能是服务行为不当、硬件缺陷或其他问题。

是否有任何日志记录可以帮助我查明原因?有硬件诊断或远程监控吗?我还能做些什么来帮助我发现实际发生的情况,或者至少能够消除什么不是错误的?

重申一下,我真的不想开始猜测可能的原因,也不想采取反复试验的方法,因为我至少要花几天时间才能得到结论性的结果。我正在寻找解决方案可靠地追查问题的根源。

答案1

答案2

如果日志中没有任何内容,也没有办法重现问题,那么您能继续进行的操作就少了很多,因此按照您的要求进行系统性工作会更加困难。

如果这是来自顶级供应商的硬件,请运行其诊断程序。IBM、Dell、HP 都有诊断套件 - 以及免费监控套件(分别是 Director、SIM 和 OpenManage)。

从时间上看,这种情况是什么时候开始发生的?在此之前,这台服务器内部或周边是否发生过任何变化?安装了新硬件(和/或驱动程序)、更新了 AV 软件、更换了 RAM?您说这是一台新服务器 - 对您来说是新的,还是对组织来说完全是新的?

您能在沙箱中进行 P2V 吗,看看问题是否仍然存在?

这是否可能与增加的负载有关 - 您可以让它发生吗,或者猜测一下(或显示一些图表)以查看在它发生时是否有更多人在使用它?

相关内容