![/var/log/messages 即使在未使用的插槽(槽)上也显示大量 CE Err=0x2000](https://linux22.com/image/803571/%2Fvar%2Flog%2Fmessages%20%E5%8D%B3%E4%BD%BF%E5%9C%A8%E6%9C%AA%E4%BD%BF%E7%94%A8%E7%9A%84%E6%8F%92%E6%A7%BD%EF%BC%88%E6%A7%BD%EF%BC%89%E4%B8%8A%E4%B9%9F%E6%98%BE%E7%A4%BA%E5%A4%A7%E9%87%8F%20CE%20Err%3D0x2000.png)
我最近不得不升级一台使用旧 FBDIMM DDR2 RAM 的旧服务器 (HP ML350G5)(我住的地方买不到新的)。重启后,/var/log/messages 一直受到 CE Err=0x2000 错误的困扰,但系统似乎很稳定。我猜 ECC 正在处理这些问题。
没有意义的是,尽管我只使用了 2 个插槽(插槽 0 和 3),但错误日志却显示所有插槽都出现相同的错误。
安装的 RAM 兼容 2x4GB Kingstone 模块,运行在 Centos 5.5 32 位上。我正在等待一些可用的停机时间来安装 PAE 内核以利用 8GB,但我没想到会出现错误。
其他帖子建议运行内存测试,但我想分享一下,看看其他人是否也遇到过类似的错误,指出未使用的 RAM 插槽。这些错误是否与安装的 RAM 超过 32 位所能容纳的量有关(没有运行 64 位或 PAE 内核)?
错误日志示例如下。
8 月 14 日 21:00:35 umm 内核:EDAC MC0:CE 行 0,通道 0,标签“”:(分支=0 DRAM-Bank=4 RDWR=读取 RAS=12405 CAS=506,CE Err=0x2000(可纠正非镜像需求数据 ECC))
8 月 14 日 21:00:36 umm 内核:EDAC MC0:CE 行 0,通道 0,标签“”:(分支=0 DRAM-Bank=2 RDWR=读取 RAS=3505 CAS=4,CE Err=0x2000(可纠正非镜像需求数据 ECC))
8 月 14 日 21:00:37 umm 内核:EDAC MC0:CE 行 0,通道 0,标签“”:(分支=0 DRAM-Bank=6 RDWR=读取 RAS=12404 CAS=504,CE Err=0x2000(可纠正非镜像需求数据 ECC))
...所有 DRAM-Bank= 值都出现在日志中(从 0 到 7)
答案1
如果您尚未安装 PAE 内核,那么您当前正在运行什么内核???
由于内存为 ECC 内存,因此 memtest 可能无法识别错误
如果存在任何无法纠正的问题,请尝试运行,edac-util -v
您将能够识别坏的内存行。
答案2
根据日志,您会在系统中收到 CE(已更正的错误)消息。您可以忽略它们,编辑 grub.conf 并将 mce=dont_log_ce 添加到内核行,这将阻止已更正的错误消息登录文件。
但在系统中运行内存检查总是好的。