MCE 错误消息和随机重启

MCE 错误消息和随机重启

有人可以帮我解读我在中发现的以下消息的确切含义dmesg吗?

Jan 28 15:58:17 mint kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 7: 8c00004000010093
Jan 28 15:58:17 mint kernel: mce: [Hardware Error]: TSC 5159cf02b8 ADDR 529449f80 MISC 2040404086

它们有很多,但CPU 0: Machine Check: 0 Bank 7: 8c00004000010093其中有一个是恒定的。

我知道 CPU 正在检测硬件问题,但我不明白在哪里。也许是存储体 7 上的内存条出现故障?(我的 8 个存储体都已满)。

我发现另一个线程建议安装mcelog,但apt找不到名为的包mcelog


编辑:

系统完成了一次内存测试,并运行了一整晚。系统依然稳定如初。

展示内容如下/var/log/syslog

Sep 13 13:40:11 mint ntpd[1462]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized Sep 13 13:44:25 mint kernel: [ 648.820738] mce: [Hardware Error]: Machine check events logged Sep 13 13:44:25 mint kernel: [ 648.820770] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR Sep 13 13:44:25 mint kernel: [ 648.820778] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: c01fbb4000010093 Sep 13 13:44:25 mint kernel: [ 648.820778] EDAC sbridge MC0: TSC 0 Sep 13 13:44:25 mint kernel: [ 648.820779] EDAC sbridge MC0: ADDR 0 Sep 13 13:44:25 mint kernel: [ 648.820780] EDAC sbridge MC0: MISC 0 Sep 13 13:44:25 mint kernel: [ 648.820786] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1536846265 SOCKET 0 APIC 0

看起来这是一个与内存相关的错误,但在我看来,系统在磁盘 I/O 操作期间重新启动。

机器总是随机重启。任何帮助都非常感谢。

答案1

来自评论...

虽然 memtest 似乎运行正常,但所有迹象表明你有一个间歇性的内存问题银行 7:c01fbb4000010093

这可能是 RAM 内存模块故障,或者 RAM 内存模块安装故障,或者主板上的内存插槽有缺陷。

如果您的内存插槽在逻辑板上用银行编号标识,请用黑色记号笔在银行 7 中的内存模块上做个标记。假设所有内存模块都是同一品牌/制造商/型号,旋转所有内存模块只有一个插槽结束,这样 RAM 内存模块组 7 最终位于组 6 中。处理 RAM 模块时,请确保使用正确的 ESD 接地技术。重新运行 memtest,注意任何故障。

如果 memtest 运行正常,则重新启动系统,如果运行正常,则问题已解决。如果失败并出现内存组 6 错误(或内存组 7 以外的任何错误),则表明内存模块存在缺陷。

内存模块应成对安装/移除。一个模块通常位于内存通道 A 上,另一个位于内存通道 B 上。这是为了内存交错的目的。如果您希望完全识别/消除特定的 RAM 模块,请移除它及其交错配对,重新启动系统,然后重新测试。

相关内容