L3 缓存中的 ECC 错误 - 严重吗?

L3 缓存中的 ECC 错误 - 严重吗?

在 Linux 服务器(8x 四核 AMD 8378)上,我收到以下错误:

[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b
[Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag.
[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP
[Hardware Error]: Machine check events logged

上个月这种情况已经发生过三次,但是以前从未发生过(服务器运行了 3 年)。

通过快速的谷歌搜索,似乎这是一件严重的事。

然而,供应商支持技术人员表示:

我已经多次看到这些错误,除非你对 CPU 进行了超频 - 或者风扇出现故障或类似情况 - 否则这不太可能是处理器问题。更有可能的是内核误报了错误。

那么 - 这是一个严重错误吗?我应该订购新零件(更换 CPU?)还是忽略它?

非常感谢。

答案1

最佳做法:尽可能保留自己的备件。

至于机器检查异常,这些是报告的通过硬件;内核只是将消息传递给您,以便您可以在硬件问题失控并导致真正的灾难之前采取措施。

我能找到的内核“错误报告”机器检查异常的唯一实例如下。在这种情况下,是处理器的缺陷导致了问题,而不是内核的缺陷。

Intel Xeon 处理器 E7 系列存在一个问题,即某些 c 状态转换可能导致 MCE 存储体 6 向用户报告错误的可纠正机器检查异常 (MCE) 错误。在某些 E7 处理器系列系统上,这会导致 MCE 错误“泛滥”。此修补程序将禁用存储体 6 的 MCE 错误报告。

底线:在我看来,这听起来就像供应商正试图避免更换有缺陷的硬件。

答案2

在企业服务器上,我们是这样处理的:如果错误过多或周复一周地重复出现,就让供应商更换。实际上,事件监控服务会自行触发该事件。无需询问。

转向 x86 我们还遇到了有关 EDAC/MCE 混淆等问题。如果错误持续出现,则应更换硬件。

(它也有可能与大型太阳活动有关,但可能性很小。确实有可能,但 PC 硬件不稳定以及供应商不愿更换某些产品的情况更为常见)

答案3

[硬件错误]:缓存级别:L3/GEN,tx:GEN,mem-tx:RD 每次重启系统时,我也会收到此错误。重启是正常的,但是计算机在关机时会失去控制。当他们说 CPU 时,您指的是 RAM 内存吗?我正在运行一个有 32 个节点的 CPU,每个节点有 8 张 64 兆字节的卡。我应该担心这个错误吗?感谢您的回复。

相关内容