我在执行 dmesg 时注意到日志中有 EDAC 错误消息。然后我发现每次启动时都会收到相同的 EDAC 错误消息。这是在 CentOS 6.4 x86_64 上。我怀疑是内存问题,所以我从 CentOS 6.0 的 Live DVD 运行了 memtest86,它没有显示任何问题。我尝试一次移除一根 RAM,启动后仍然有 EDAC 错误消息。想知道这是否是最近的内核问题,我从 CentOS 6.0 Live DVD 启动并查看日志,那里也有一条 EDAC 消息,就像 CentOS 6.4 一样。
这是错误信息:
Jul 5 00:44:19 mybox kernel: dracut: Switching root
Jul 5 00:44:19 mybox kernel: readahead: starting
Jul 5 00:44:19 mybox kernel: udev: starting version 147
Jul 5 00:44:19 mybox kernel: EDAC MC: Ver: 2.1.0 Jun 12 2013
Jul 5 00:44:19 mybox kernel: EDAC MC0: Giving out device to 'i3000_edac' 'i3000': DEV 0000:00:00.0
Jul 5 00:44:19 mybox kernel: EDAC PCI0: Giving out device to module 'i3000_edac' controller 'EDAC PCI controller': DEV '0000:00:00.0' (POLLED)
Jul 5 00:44:19 mybox kernel: tg3.c:v3.124 (March 21, 2012)
我没有遇到任何其他系统问题。它运行在具有 4 GB RAM 的 Dell PowerEdge SC430 上。它有两个运行软件 RAID 的 80 GB 内置驱动器,外部 eSATA 驱动器也运行软件 RAID。
如果是硬件问题,那是否只与内存有关?可能是其他原因?我愿意尝试更多方法来彻底解决这个问题,但目前我还不确定下一步该怎么做。谢谢!
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
答案1
显示的“发出设备”行表示驱动程序已初始化并正在与硬件通信。一个表示内存控制器 (MC0),另一个表示 PCI 控制器 (PCI0)。
以 CE 开头的行指的是可纠正的错误,即 ECC 硬件成功纠正了错误。如果您每隔几个月才看到一次,那没什么大不了的;宇宙射线或其他什么。如果您看到很多这样的情况,那么是时候更换受影响的 RAM 了,因为它可能很快就会坏掉。