几天前,我们的一台网络服务器在凌晨时分瘫痪了。它无法响应任何远程请求(说实话,我不知道如果将 USB 键盘和显示器插入其中,它是否会响应),数据中心的一名工程师为我们重启了服务器。
一切都恢复正常,然后我检查了事件日志,看看是否有任何线索表明出了什么问题。我真正能看到的只有“上次凌晨 1 点关机是意外的”这个事件(这是服务器停机的时间,而不是工程师按下电源按钮的时间)。
该服务器安装了 IIS - 但显然网站日志只显示导致崩溃(或冻结)的文件请求,崩溃前的流量没有增加。还安装了 SQL Server,但日志仅报告服务器恢复时有十几个事务向前滚动。
我还可以查看其他什么来找出导致崩溃的可能原因吗?
答案1
听起来盒子被挂住了。由于现场支持人员刚刚退回了盒子,所以您有可能(但不太可能)从日志中得到任何东西。
您需要启用 CrashOnCtrlScroll 支持(http://support.microsoft.com/kb/244139),重新启动盒子,然后下次它挂起时让某人按住右 Ctrl 键并按两次 Scroll Lock。这将对盒子进行错误检查(蓝屏),写出当前状态,然后重新启动它。
您还需要确保系统配置为内核或完全内存转储。
谢谢,Brian Desmond Active Directory MVP
答案2
如果您启用了创建崩溃转储文件的选项,那么这也是另一种可能性,尽管需要高级分析技能和/或 Microsoft 的支持案例才能从中获取有用的信息。通常,转储文件将保存到 %SystemRoot%\MEMORY.DMP。
答案3
如果是“蓝屏死机”导致故障,并且服务器配置为保存崩溃转储(这是默认设置),则可以调试输出。我找到的最佳操作资源是“如何在几分钟内解决 Windows 系统崩溃问题”。
否则,如果制造商提供了系统监控工具,例如 HP OpenView 或 Dell OpenManage,那么您应该在其中寻找硬件故障的证据。
最后,如果服务器采用 UPS,您将需要在那里查找与电源相关的故障。