SBS 2011 崩溃,原因不明

SBS 2011 崩溃,原因不明

我的 SBS 2011 服务器几天前开始崩溃。这个问题发生在一个长周末的周日晚上 11:55。当时几乎没有人访问服务器。我已经好几个星期没有对服务器进行任何更改了。最近的更改是 MS 的定期更新,没有造成任何问题。

当它崩溃并卡在启动顺序中时,它会在尝试应用计算机设置时出现蓝屏。系统蓝屏时没有给出错误代码,至少我可以捕获到。在重新启动期间,我使用 Dell DRAC 进行连接,因为服务器位于我无法物理访问的设施中。我只看到错误消息的开头,但要么没有更多信息,要么它从我的控制台会话中被切断。

我能够毫无问题地进入安全模式和网络连接安全模式。

我能够正常启动一次并重新进入 Windows,但我认为我只是运气好,因为接下来的两次启动也在应用计算机设置时出现蓝屏。

我向 MS 提交了问题,我们花了两天时间解决这个问题,但毫无进展。我在这里寻求帮助,希望有人能提供一些想法。

我使用“最后一次正确配置”正常恢复 Windows,但经过几次重启后,问题又出现了。系统崩溃前,系统或应用程序事件日志中没有出现任何异常,只有信息事件。

我们发现了一个奇怪的问题,网络登录服务无法启动(以前从未发生过这种情况)。MS 确定计算机的主机名在注册表中的几个地方发生了变化。我们禁用了 Exchange 服务,因为它们也因网络登录服务无法启动而失败。一旦我们将注册表设置修改回服务器的实际名称,网络登录服务就会再次正常启动。

以为问题已经解决,我们开始重启 Exchange 服务,但当其中一半左右启动时,系统又崩溃了。我们重启后又启动了几个服务,然后又崩溃了。

微软随后尝试禁用第三方驱动程序和存储驱动程序(安全模式下无法加载的驱动程序),但服务器在这种状态下不稳定。我的微软工程师当晚就辞职了。

我让数据中心对硬件进行了全面诊断,结果没有问题。

我再次禁用了所有 Exchange 服务,但从那以后它就再也没有崩溃过。

那么,有什么想法吗?

我一直认为这与 RAM 有关。这台服务器非常小;它运行 8 GB RAM。即使禁用 Exchange,启动桌面也会用掉 6.5 GB 的 RAM。该服务器是 Dell PE2950,配备 1 个四核处理器(2.33 GHz)和 3 个磁盘 RAID 5 卷。还有一个独立驱动器,我用它来进行本地备份。

我的想法是,当服务启动时,RAM 被分配给进程,它遇到了一些物理模块问题,或者页面文件已满并以某种方式导致崩溃。这是合理的推理吗?

另一个想法是注册表项被更改,导致网络登录服务失败。注册表中显示的服务器名称是通用的,如 WIN-67L5UNORI4I。

我扫描了安全日志以查找失败的登录尝试,发现类似的 PC 名称出现在奇怪的 IP 地址(中国、韩国、巴西、德国)中。

是否有人获得了访问权限并造成了损害,从而导致其崩溃?

禁用自动重启使我能够看到 BSOD 错误屏幕。KERNEL_DATA_INPAGE_ERROR ...技术信息:STOP:0x0000007A(0xFFFFF6FC4000A9D0、0xFFFFFFFFC000000E、0x0000000137CDF860、0xFFFFF8800153A758...*** Ntfs.sys - 地址 FFFFF8800153A758 位于基数 FFFFF8800144C000,日期戳 5167f5fc

请注意,在尝试启动 exchange rpcclientaccess 服务时,这种情况似乎发生过多次。服务在启动时挂起,但会创建一个进程,该进程会不断占用越来越多的 RAM,然后导致服务器崩溃

您能提供的任何建议都将十分有帮助。

谢谢!

答案1

蓝屏/BSOD 最常见的原因:

  • 内存不好(运行内存测试器几个小时来对所有内存进行压力测试)
  • 其他故障硬件(主板或?)
  • 司机腐败 // 可能性最小

使用自动运行,并尝试禁用任何您不需要的驱动程序和服务。

然而,在这种情况下,如果自动运行的清理过程没有解决问题,最常见的解决方案是建立一个新服务器。(新硬件、新操作系统加载......)

答案2

感谢大家的贡献。

尽管数据中心运行硬件诊断时结果正常,但这具有误导性。

我们更新了所有硬件设备上的固件。服务器重新启动进入 Windows 后,我立即注意到 RAID 阵列的一个驱动器出现故障。我们更换了驱动器,所有问题都消失了。

我不得不修复并重新安装交换数据库,但现在它运行良好。

过时的固件和故障的 HD 的某种组合似乎是导致此问题的罪魁祸首。

当服务器启动时,将交换服务设置为自动,它试图安装数据库,我想是访问了故障硬盘的一部分并导致它崩溃。

相关内容