解决可怕的 0x9C BSOD

解决可怕的 0x9C BSOD

我们有一台运行 Windows Server 2003 R2、Enterprise x64 并安装了 Service Pack 2 的 Dell PowerEdge 2950。

最近,我们遇到了该服务器发生的多个 STOP 错误。幸运的是,它已安装到位,作为故障转移机器,因此目前不会影响我们的生产环境。服务器日志中显示的错误如下:

Event Type: Error
Event Source:   System Error
Event Category: (102)
Event ID:   1003
Description:
Error code 000000000000009c, parameter1 0000000000000004, 
parameter2 fffffadf90881240, parameter3 00000000f2000000, 
parameter4 0000000000060151.

到目前为止,我能找到的最佳答案是 9C 错误是某种通用硬件问题。其他参数对于缩小范围没有用。

自去年机器投入使用以来,硬件没有发生任何变化。它有一个完全相同的双机箱(主机箱充当故障转移机箱),没有出现此行为。最后一次软件更改是在 2009 年 4 月 16 日,当时应用了几个安全更新。蓝屏开始发生在 2009 年 5 月 9 日。

是否有任何诊断方法可以帮助解决这个问题?

答案1

请参阅 Kazna3 的回答http://www.dal.com/archive/index.php/t-49205.html他/她写道:

但首先,BSOD 已经很老了。0x9C BUGCHECK 与硬件有关,众所周知。其余部分与处理器有关,是处理器故障还是只是处理器驱动程序。:(

请查看此处的解释:0x9C: MACHINE_CHECK_EXCEPTION (http://msdn2.microsoft.com/en-us/library/ms795775.aspx

当我们购买 P4 时,微软曾经建议过这一点:

步骤 1) 更新您的 BIOS(称为微码更新的硬件补丁在这里,如果您的处理器或 AMLI 有勘误表,它将在这里得到修复)。

步骤2)立即致电硬件供应商,因为这是一个严格的硬件错误。

步骤3)更换硬件,从CPU开始。

换句话说,您的硬件可能坏了。可能是电压不足或高温。组件是固态的并不意味着它不会发生故障。例如:RAM 总是发生故障 - 这就是为什么它装在防静电袋中的原因。

答案2

您是否可以物理访问该机器?发生这种情况时,状态 LCD 是否会显示错误代码,还是似乎没有显示?

如果您已安装 OpenManage,那么您已经领先一步。检查 OpenManage 日志以查看它是否记录了任何硬件错误。OpenManage 还包括一个功能齐全的诊断套件。查看http://www.dell.com/downloads/global/power/ps1q06-20050259-Thathireddy.pdf了解使用说明。戴尔的支持人员通常会要求您运行几个 CLI 诊断测试,因此最好与他们联系。

作为一般步骤(并防止支持人员要求您这样做),更新您的 BIOS 和嵌入式服务器管理 BMC 固件

如果有备用 CPU,请更换它。

另外,这听起来可能很奇怪,但如果您安装了 DRAC,请将其移除。我有一台 2850,它给出 CPU 错误代码 (E07F0)、随机冻结,并且偶尔无法启动。更换 DRAC 可以解决问题,从那以后它就再也没有出现过问题。

如果这些都不起作用,那么是时候给戴尔打电话了。这 100% 是在操作系统层以下。

答案3

请参阅 Microsoft KB 939315 - storport 驱动程序可能会导致这种情况.....您是否在重启或关机时或仅仅在运行时看到错误?

相关内容