了解“来自 APEI 通用硬件错误源的硬件错误”错误消息

2024-5-22 • tag-icon

概括：我试图准确理解以下错误消息的含义：

[17016.923750] {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[17016.923758] {4}[Hardware Error]: It has been corrected by h/w and requires no further action
[17016.923759] {4}[Hardware Error]: event severity: corrected
[17016.923761] {4}[Hardware Error]:  Error 0, type: corrected
[17016.923762] {4}[Hardware Error]:  fru_text: CorrectedErr
[17016.923764] {4}[Hardware Error]:   section_type: memory error

细节:

Intel(R) Xeon(R) CPU E3-1275 v3 @ 3.50GHz我有一台带有运行 Arch Linux ( ) 的 CPU的服务器3.18.6-1-ARCH #1 SMP PREEMPT Sat Feb 7 08:44:05 CET 2015 x86_64 GNU/Linux。

当我运行时，dmesg我看到上面发布的错误。这些错误并不常见，但它们似乎一直在发生。例如，服务器自上次重新启动以来已经运行了 1 天，并且日志中列出了 9 个此错误实例。

我看到另一个问题询问这个错误并且有答案表明问题在于 ECC 内存出现故障。

我的问题是：

1) 是否有任何参考资料支持此错误消息与 ECC 内存相关的想法？

2) 如果我确实有一个发生故障的 DIMM，是否有建议的方法来确定它是哪一个？我尝试运行 memtest86+，但它没有报告任何内存错误。

3) 如果操作系统报告 ECC 错误已被纠正，这是否真的意味着 DIMM 出现故障？

如果唯一的问题是我的日志文件中的一些消息，我不会那么担心。但我也注意到有时服务器会意外挂起。该机器用于研究，其稳定性并不像生产系统那样重要。机器仍然挂起可能会出现问题。因此，我想确切地知道此错误消息的含义，如果我需要更换某个组件，如果有一种方法可以确定哪个组件需要更换，那就太好了。

编辑

目前，服务器已运行 8 天而没有挂起，我在日志中看到此错误消息的 148 个实例。此外，我还看到以下消息的一个实例：

[671211.188084] EDAC MC0: INTERNAL ERROR: csrow value is out of range (6 >= 4)
[671211.188333] EDAC MC0: 1 CE ie31200 CE on unknown memory (channel:1 page:0x0 offset:0x0 grain:0 syndrome:0xc8)

我猜想其中一个 DIMM 可能有问题。我仍然有兴趣知道是否有人知道如何解释这些消息，特别是为了找出哪个 DIMM 可能出现故障。

答案1

仅供参考，我似乎也有类似的问题。它位于 Xeon 上，Debian 最近从 Wheezy 升级到 Jessie。

事实证明，解决方案是将内存取出并重新安装，一切都恢复正常。

答案2

据我所知，这个错误是正常的。与UEFI有关。需要更改内核来消除错误，但显然它是无害的。

答案1

答案2

相关内容