在 Linux 服务器(8x 四核 AMD 8378)上,我收到以下错误:
[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b
[Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag.
[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP
[Hardware Error]: Machine check events logged
上个月这种情况已经发生过三次,但是以前从未发生过(服务器运行了 3 年)。
通过快速的谷歌搜索,似乎这是一件严重的事。
然而,供应商支持技术人员表示:
我已经多次看到这些错误,除非你对 CPU 进行了超频 - 或者风扇出现故障或类似情况 - 否则这不太可能是处理器问题。更有可能的是内核误报了错误。
那么 - 这是一个严重错误吗?我应该订购新零件(更换 CPU?)还是忽略它?
非常感谢。
答案1
最佳做法:尽可能保留自己的备件。
至于机器检查异常,这些是报告的通过硬件;内核只是将消息传递给您,以便您可以在硬件问题失控并导致真正的灾难之前采取措施。
我能找到的内核“错误报告”机器检查异常的唯一实例如下。在这种情况下,是处理器的缺陷导致了问题,而不是内核的缺陷。
Intel Xeon 处理器 E7 系列存在一个问题,即某些 c 状态转换可能导致 MCE 存储体 6 向用户报告错误的可纠正机器检查异常 (MCE) 错误。在某些 E7 处理器系列系统上,这会导致 MCE 错误“泛滥”。此修补程序将禁用存储体 6 的 MCE 错误报告。
底线:在我看来,这听起来就像供应商正试图避免更换有缺陷的硬件。
答案2
在企业服务器上,我们是这样处理的:如果错误过多或周复一周地重复出现,就让供应商更换。实际上,事件监控服务会自行触发该事件。无需询问。
转向 x86 我们还遇到了有关 EDAC/MCE 混淆等问题。如果错误持续出现,则应更换硬件。
(它也有可能与大型太阳活动有关,但可能性很小。确实有可能,但 PC 硬件不稳定以及供应商不愿更换某些产品的情况更为常见)
答案3
[硬件错误]:缓存级别:L3/GEN,tx:GEN,mem-tx:RD 每次重启系统时,我也会收到此错误。重启是正常的,但是计算机在关机时会失去控制。当他们说 CPU 时,您指的是 RAM 内存吗?我正在运行一个有 32 个节点的 CPU,每个节点有 8 张 64 兆字节的卡。我应该担心这个错误吗?感谢您的回复。