MCE 错误代码/粉红色屏幕 - 它们应该引起关注吗?

MCE 错误代码/粉红色屏幕 - 它们应该引起关注吗?

因此,我最近购买了服务器级系统以及所有服务器级外围设备。我已获得 ESXi 6 许可,并安装了所有最新补丁。系统已运行约 2 周,突然间完全崩溃了。

我将此错误代码解释为“内部计时器错误”。我已将信息转发给 SuperMicro,但说实话,到目前为止,我对他们的回复不是很有信心。我的解释是系统不应该崩溃 - 因为它是运行 ESXi 的带有 ECC 内存的 Xeon。

这是否可能是某个一次性错误,不应该再次发生?您将如何处理?希望从那些见过此类错误的人那里获得一些建议,以及他们最终会做什么。

碰撞

答案1

您看到此错误(MCE,机器检查异常)正是因为它具有 ECC RAM。

您的某个硬件出现故障,最有可能是内存条,但也可能是一个或几个处理器(也许是 CPU 10?)或介于两者之间的某个部件。请调用您的支持合同。

也可能是硬件的其他部分,但我每次看到这种情况都是 ECC RAM 出现多位故障。如果 MCE 解码为“内部计时器错误”,则下一个最有可能的情况是 CPU 或主板出现故障。

答案2

是的,这确实令人担忧。服务器崩溃了!

检查您的 RAM 和 CPU 插座针脚(如果您手动组装了服务器)。

这就是您将获得的全部信息。您可以向 VMware 提交支持案例,他们会为您分析崩溃转储。

相关内容