我们的新服务器几个月来基本运行良好。然而,它两次无缘无故地自动关闭了。
最近一次发生于几天前的晚上 11:41。事件日志中没有显示任何异常,最后一个条目是安全日志中相当普通的审计条目。UPS 日志显示没有电源问题。没有运行任何特别的东西,因为当时已经是下班时间了。当然,除了从晚上 10 点开始的夜间备份。备份日志也没有显示任何有趣的东西,只是在备份中间停止了。虽然服务器配置为写入内核转储并重新启动,但没有内存转储,系统也没有重新启动。这是一台 HP Proliant ML330 G6 系列服务器。
第二天早上手动重启服务器时,记录了以下事件:
Log Name: System
Source: EventLog
Date: 4/16/2011 8:20:22 AM
Event ID: 6008
Task Category: None
Level: Error
Keywords: Classic
User: N/A
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The previous system shutdown at 11:41:26 PM on 4/15/2011 was unexpected.
和
Log Name: System
Source: Microsoft-Windows-Kernel-Power
Date: 4/16/2011 8:20:00 AM
Event ID: 41
Task Category: (63)
Level: Critical
Keywords: (2)
User: SYSTEM
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The system has rebooted without cleanly shutting down first. This error could be
caused if the system stopped responding, crashed, or lost power unexpectedly.
和
Log Name: System
Source: USER32
Date: 4/16/2011 8:22:34 AM
Event ID: 1076
Task Category: None
Level: Warning
Keywords: Classic
User: XXXXXXXXXXXXXXX\Administrator
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The reason supplied by user XXXXXXXXXXXXXXX\Administrator for the last unexpected
shutdown of this computer is: Other Failure: System Unresponsive
Reason Code: 0x8000005
Problem ID:
Bugcheck String:
Comment:
我花了一些时间研究这个问题,但发现没有什么用。有人有什么想法吗?
更新:以下是 iLO2 日志的相关部分:
305 04/15/2011 23:42:00 Server reset.
306 04/15/2011 23:42:00 Server power removed.
307 04/15/2011 23:42:00 iLO 2 network link down.
308 04/15/2011 23:42:00 iLO 2 network link up at 100 Mbps.
309 04/16/2011 08:17:00 Server power restored.
更新:我增加了分页文件的大小以允许完整的内核转储,所以如果它真的是 Windows 崩溃,我将能够看到发生了什么 - 下次发生时。
更新:服务器固件已更新。
更新:驱动程序和系统软件有很多更新可用。我已经安装了大部分更新,现在我只是在等待看问题是否会再次发生。
更新 2018 年 6 月 6 日:经过六年的无故障运行,这个问题又出现了,在过去一周左右发生了两次。我正在调查前面板及其接线是否有故障的可能性。
更新 2018 年 11 月 30 日:终于更换了前面板电缆组件,但问题仍然存在。接下来是电源。
答案1
最有可能是电源开关/LED 电缆套件出现故障。我的 ML310 G5 也出现过同样的问题,这就是解决问题的方法。显然,这是 HP 的一个已知问题。
459186-001-02 惠普 PROLIANT ML310 G5 系统前 LED 至 SYS/BRD 电缆 P/N:459186-001-02 - 惠普原装
答案2
我的 Server 2008 R2 机器上也出现了同样的问题。结果发现,您的机器使用的 Xeon 5000 系列 CPU 在 2008 R2 和 Hyper-V 角色方面存在问题。我在这里冒险假设您已经安装了 Hyper-V 角色,因为这个问题与我遇到的问题相同。
Microsoft 提供了可用的修补程序这里。我把它安装在我的系统上,从那时起就没再出现过任何问题。
答案3
我要冒险一试,说您可能需要固件更新。 来源。不久前我们的 DL380 G6 也遇到过类似的问题。
答案4
您是否安装了 HP 管理代理软件?您提到了 Windows 事件日志和备份日志,但没有提到“硬件”日志。您也需要查看那里,因为自发关机可能与硬件问题有关,而您无法在其他地方看到有关该问题的信息。