了解“来自 APEI 通用硬件错误源的硬件错误”错误消息

了解“来自 APEI 通用硬件错误源的硬件错误”错误消息

概括:我试图准确理解以下错误消息的含义:

[17016.923750] {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[17016.923758] {4}[Hardware Error]: It has been corrected by h/w and requires no further action
[17016.923759] {4}[Hardware Error]: event severity: corrected
[17016.923761] {4}[Hardware Error]:  Error 0, type: corrected
[17016.923762] {4}[Hardware Error]:  fru_text: CorrectedErr
[17016.923764] {4}[Hardware Error]:   section_type: memory error

细节:

Intel(R) Xeon(R) CPU E3-1275 v3 @ 3.50GHz我有一台带有运行 Arch Linux ( ) 的 CPU的服务器3.18.6-1-ARCH #1 SMP PREEMPT Sat Feb 7 08:44:05 CET 2015 x86_64 GNU/Linux

当我运行时,dmesg我看到上面发布的错误。这些错误并不常见,但它们似乎一直在发生。例如,服务器自上次重新启动以来已经运行了 1 天,并且日志中列出了 9 个此错误实例。

我看到另一个问题询问这个错误并且有答案表明问题在于 ECC 内存出现故障。

我的问题是:

1) 是否有任何参考资料支持此错误消息与 ECC 内存相关的想法?

2) 如果我确实有一个发生故障的 DIMM,是否有建议的方法来确定它是哪一个?我尝试运行 memtest86+,但它没有报告任何内存错误。

3) 如果操作系统报告 ECC 错误已被纠正,这是否真的意味着 DIMM 出现故障?

如果唯一的问题是我的日志文件中的一些消息,我不会那么担心。但我也注意到有时服务器会意外挂起。该机器用于研究,其稳定性并不像生产系统那样重要。机器仍然挂起可能会出现问题。因此,我想确切地知道此错误消息的含义,如果我需要更换某个组件,如果有一种方法可以确定哪个组件需要更换,那就太好了。

编辑

目前,服务器已运行 8 天而没有挂起,我在日志中看到此错误消息的 148 个实例。此外,我还看到以下消息的一个实例:

[671211.188084] EDAC MC0: INTERNAL ERROR: csrow value is out of range (6 >= 4)
[671211.188333] EDAC MC0: 1 CE ie31200 CE on unknown memory (channel:1 page:0x0 offset:0x0 grain:0 syndrome:0xc8)

我猜想其中一个 DIMM 可能有问题。我仍然有兴趣知道是否有人知道如何解释这些消息,特别是为了找出哪个 DIMM 可能出现故障。

答案1

仅供参考,我似乎也有类似的问题。它位于 Xeon 上,Debian 最近从 Wheezy 升级到 Jessie。

事实证明,解决方案是将内存取出并重新安装,一切都恢复正常。

答案2

据我所知,这个错误是正常的。与UEFI有关。需要更改内核来消除错误,但显然它是无害的。

相关内容