[58306.633900] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[58306.633905] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
[58306.633907] {1}[Hardware Error]: event severity: corrected
[58306.633909] {1}[Hardware Error]: Error 0, type: corrected
[58306.633911] {1}[Hardware Error]: fru_text: CorrectedErr
[58306.633912] {1}[Hardware Error]: section_type: memory error
[58306.633914] {1}[Hardware Error]: node: 0 device: 44696
[58306.633916] {1}[Hardware Error]: error_type: 2, single-bit ECC
这已经出现在我的 Debian Xeon 服务器上纠错码内存,这是否意味着 RAM 模块快要死了,或者是其他原因(例如由 SW 引起的错误)?我看见其他一些帖子声称他的操作系统重新启动,而我的操作系统没有重新启动,这就是我问的原因。谢谢。
答案1
ECC 内存错误始终是硬件错误,而不是软件错误。这并不意味着他们表明失败硬件,它们可能是由随机位翻转引起的。 (Google 2009 年关于该主题的论文提供了有趣的见解;它的引文可能提供更多最新的分析。)
硬件位翻转能由软件触发,例如 在 Rowhammer 攻击中。
除非 ECC 错误变得频繁,或者您开始看到无法纠正的 ECC 错误,否则我不会担心。