L3 缓存中的 ECC 错误 - 严重吗？

Question 1

最佳做法：尽可能保留自己的备件。

至于机器检查异常，这些是报告的通过硬件；内核只是将消息传递给您，以便您可以在硬件问题失控并导致真正的灾难之前采取措施。

我能找到的内核“错误报告”机器检查异常的唯一实例如下。在这种情况下，是处理器的缺陷导致了问题，而不是内核的缺陷。

Intel Xeon 处理器 E7 系列存在一个问题，即某些 c 状态转换可能导致 MCE 存储体 6 向用户报告错误的可纠正机器检查异常 (MCE) 错误。在某些 E7 处理器系列系统上，这会导致 MCE 错误“泛滥”。此修补程序将禁用存储体 6 的 MCE 错误报告。

底线：在我看来，这听起来就像供应商正试图避免更换有缺陷的硬件。

Answer

最佳做法：尽可能保留自己的备件。

至于机器检查异常，这些是报告的通过硬件；内核只是将消息传递给您，以便您可以在硬件问题失控并导致真正的灾难之前采取措施。

我能找到的内核“错误报告”机器检查异常的唯一实例如下。在这种情况下，是处理器的缺陷导致了问题，而不是内核的缺陷。

Intel Xeon 处理器 E7 系列存在一个问题，即某些 c 状态转换可能导致 MCE 存储体 6 向用户报告错误的可纠正机器检查异常 (MCE) 错误。在某些 E7 处理器系列系统上，这会导致 MCE 错误“泛滥”。此修补程序将禁用存储体 6 的 MCE 错误报告。

底线：在我看来，这听起来就像供应商正试图避免更换有缺陷的硬件。

Question 2

在企业服务器上，我们是这样处理的：如果错误过多或周复一周地重复出现，就让供应商更换。实际上，事件监控服务会自行触发该事件。无需询问。

转向 x86 我们还遇到了有关 EDAC/MCE 混淆等问题。如果错误持续出现，则应更换硬件。

（它也有可能与大型太阳活动有关，但可能性很小。确实有可能，但 PC 硬件不稳定以及供应商不愿更换某些产品的情况更为常见）

Answer

在企业服务器上，我们是这样处理的：如果错误过多或周复一周地重复出现，就让供应商更换。实际上，事件监控服务会自行触发该事件。无需询问。

转向 x86 我们还遇到了有关 EDAC/MCE 混淆等问题。如果错误持续出现，则应更换硬件。

（它也有可能与大型太阳活动有关，但可能性很小。确实有可能，但 PC 硬件不稳定以及供应商不愿更换某些产品的情况更为常见）

Question 3

[硬件错误]：缓存级别：L3/GEN，tx：GEN，mem-tx：RD 每次重启系统时，我也会收到此错误。重启是正常的，但是计算机在关机时会失去控制。当他们说 CPU 时，您指的是 RAM 内存吗？我正在运行一个有 32 个节点的 CPU，每个节点有 8 张 64 兆字节的卡。我应该担心这个错误吗？感谢您的回复。

Answer

[硬件错误]：缓存级别：L3/GEN，tx：GEN，mem-tx：RD 每次重启系统时，我也会收到此错误。重启是正常的，但是计算机在关机时会失去控制。当他们说 CPU 时，您指的是 RAM 内存吗？我正在运行一个有 32 个节点的 CPU，每个节点有 8 张 64 兆字节的卡。我应该担心这个错误吗？感谢您的回复。

L3 缓存中的 ECC 错误 - 严重吗？

答案1

答案2

答案3

相关内容