我该如何解读 MCE 消息？

Question

您可能想尝试更换有问题的 DIMM（CPU 0、SOCKET 8）并查看是否继续生成 MCE 消息。

mcelog 软件包配置了一些默认阈值，用于针对随时间发生的各种 MCE 事件。查看/etc/mcelog/mcelog.conf详细信息。对于内存页面错误，阈值是 24 小时内发生 10 次事件。（我不太清楚这个数字从何而来，但它可能是一个合理的参考点）。您的帖子提到 24 小时内针对大量页面发生了 77 次可纠正事件，因此 DIMM 很可能出现了问题，可能会或可能不会变成更严重的问题。

我不会因为从不同来源收到不一致的信息而感到太沮丧。总的来说，我发现固件级别的任何东西都是特定于平台的（即特定于特定硬件型号）。我对固件相关问题的经验法则是，供应商工具通常最准确，但可用性最差。更通用的开源工具更容易使用，但可能无法提供足够的信息来准确显示正在发生的事情。

Answer 1

您可能想尝试更换有问题的 DIMM（CPU 0、SOCKET 8）并查看是否继续生成 MCE 消息。

mcelog 软件包配置了一些默认阈值，用于针对随时间发生的各种 MCE 事件。查看/etc/mcelog/mcelog.conf详细信息。对于内存页面错误，阈值是 24 小时内发生 10 次事件。（我不太清楚这个数字从何而来，但它可能是一个合理的参考点）。您的帖子提到 24 小时内针对大量页面发生了 77 次可纠正事件，因此 DIMM 很可能出现了问题，可能会或可能不会变成更严重的问题。

我不会因为从不同来源收到不一致的信息而感到太沮丧。总的来说，我发现固件级别的任何东西都是特定于平台的（即特定于特定硬件型号）。我对固件相关问题的经验法则是，供应商工具通常最准确，但可用性最差。更通用的开源工具更容易使用，但可能无法提供足够的信息来准确显示正在发生的事情。

我该如何解读 MCE 消息？

答案1

相关内容