据我所知,我公司的服务器一直表现异常。由于它是一台生产服务器,我们很少进行完全关闭/重启,但当我们这样做时,我们会在随机时间看到几次 BSOD,然后它最终重新启动到 Windows(无需更改,只需正常重置)。
我期望每次 BSOD 后都会得到一个转储文件,但奇怪的是,我从来没有得到过。我多次检查了高级设置中的启动配置,以确保它已配置为创建转储文件,但到目前为止我还没有得到任何转储文件。
BSOD时的错误具体是这样的:
0x0000007B (0xFFFFF880009A9928, 0xFFFFFFFFC0000034, 0x0000000000000000, 0x0000000000000000)
并且它在 HP Proliant DL120 G6 服务器上运行 Windows Server 2008 R2 Enterprise。
我尝试了 Windows 的最新更新,也尝试检查硬件问题和配置,甚至获得了 HP 人员的支持,他们说这一定是操作系统错误。
通过谷歌搜索,有人说这是一个过滤驱动程序错误(0x34 的第二个开关),我尝试删除所有过滤驱动程序实例,但没有成功。
有什么想法可以修复此问题或者至少排除故障吗?
更新:我忘了提一下,进入安全模式(任何类型的安全模式)也会触发 BSOD,所以这不是一个选择。
答案1
我会查看转储文件,看看是否有明显的方法来识别驱动程序问题。
http://blogs.technet.com/b/juanand/archive/2011/03/20/analyzing-a-crash-dump-aka-bsod.aspx
这些步骤有时会很快给出明显的答案。如果没有,我不会花太多时间用这种方法进一步研究,因为这需要非常专业的知识。Microsoft 支持人员将能够继续调查。
答案2
这可能是服务器硬件的固件问题。
许多组织和系统管理员没有花时间更新和维护固件HP ProLiant 服务器。它需要的思维方式与戴尔或者超微集成度较低的系统。
你有一个HP ProLiant DL160 G6 服务器,因此部署日期为 2008-2010 年,当时该服务器和处理器架构被广泛使用。快速检查固件修订和发行说明会发现2011 年 9 月更新:
已修复的问题:
解决了可能导致以下任一情况的问题:操作系统停止响应、系统意外重置、使用 Microsoft Windows 操作系统时出现蓝屏、使用 Linux 操作系统时出现内核崩溃或使用 VMware ESX 时出现紫屏。当出现此问题时,操作系统可能会显示一条消息或在事件日志中记录一条消息,表明“无法纠正的机器检查异常”。但是,有些情况下,系统会在操作系统显示错误消息之前重置,有些情况下,当出现此问题时,事件日志中不包含任何日志条目。如果将 Intel C-State 技术配置为“禁用”或将 C 状态包限制设置设置为“C1”或“C3”,则不会出现此问题。在默认的 Intel C-State 技术和 C 状态包限制设置配置中,系统容易受到此问题的影响。
听起来就像你的问题,不是吗?
更新系统中所有固件和组件的最佳方法(ILO、NIC、RAID、BIOS 等)是下载可启动HP ProLiant 服务包 DVD 映像并允许它更新服务器上的所有内容。