来自 APEI 通用硬件错误源 (ECC RAM) 的硬件错误

来自 APEI 通用硬件错误源 (ECC RAM) 的硬件错误
[58306.633900] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[58306.633905] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
[58306.633907] {1}[Hardware Error]: event severity: corrected
[58306.633909] {1}[Hardware Error]:  Error 0, type: corrected
[58306.633911] {1}[Hardware Error]:  fru_text: CorrectedErr
[58306.633912] {1}[Hardware Error]:   section_type: memory error
[58306.633914] {1}[Hardware Error]:   node: 0 device: 44696
[58306.633916] {1}[Hardware Error]:   error_type: 2, single-bit ECC

这已经出现在我的 Debian Xeon 服务器上纠错码内存,这是否意味着 RAM 模块快要死了,或者是其他原因(例如由 SW 引起的错误)?我看见其他一些帖子声称他的操作系统重新启动,而我的操作系统没有重新启动,这就是我问的原因。谢谢。

答案1

ECC 内存错误始终是硬件错误,而不是软件错误。这并不意味着他们表明失败硬件,它们可能是由随机位翻转引起的。 (Google 2009 年关于该主题的论文提供了有趣的见解;它的引文可能提供更多最新的分析。)

硬件位翻转由软件触发,例如 在 Rowhammer 攻击中

除非 ECC 错误变得频繁,或者您开始​​看到无法纠正的 ECC 错误,否则我不会担心。

相关内容