$ sudo tail /var/log/messages
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
如您所见,记录速度非常快,不过我不知道 EDAC 的情况。据我所知,这可能表示内存条有问题,这有可能吗?
我知道这还不算什么,我还能做些什么来解释一下这个问题?这是一个实时服务器,所以我不能轻易重启或关闭它。
答案1
我希望我运行的 EDAC 代码支持我的服务器的 ECC 芯片!尝试dmidecode -t memory
查看您拥有的 ECC 硬件。
在您的日志中,您会收到来自 ECC 芯片的通知;如果您的芯片不受支持(就像我的一样!),您将获得静默 ECC 更正。在您的案例中,ECC 更正发生了和您也收到了通知,因为您得到了支持。
我会先去更换那个内存条。另一方面,你可能有一个有故障的通道,或者一个有故障的处理器核心。我曾经在 memtest86.org 上诊断出过这样的问题(原始的 memtest86 有 SMP 支持,试试 memtest86+)。
在 BIOS 中禁用 ECC,使用软盘/USB 启动 memtest86,并查看是否有一堆地址被标记,并且全部排成一行:如果发生这种情况,则可能是内存通道问题。