我收到了一封来自用户的电子邮件,他担心他的一台服务器上出现以下错误表明存在严重问题。问题是,下面的错误是全部我必须继续下去。我通常认为自己是一个不错的 Google 员工,但在这种情况下我只能找到一用户遇到有关“探针过滤器目录”的错误的其他事件:
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
据我所知,这种情况只发生过一次。在日志中查找其他硬件错误,除了这一事件之外没有发现任何其他错误。
我上面引用的论坛帖子只是简单地结束,基本上告诉用户不要担心它,如果它只发生一次并且没有导致任何致命问题。这与我从同事那里得到的建议相同,他们也提到变量太多(即 9 月 8 日凌晨 2:50 运行的是什么?)。
然而,该用户希望确信他们的系统没有出现问题。上述错误表明什么或与什么相关?什么是“探针过滤器目录”?我可以运行哪些测试来让用户放心,这不会将他们的机器标记为即将到来的厄运?
该计算机的 Linux 发行版是 Red Hat Enterprise Linux Server 版本 6.4 (Santiago)。
答案1
我没有确切的答案,但其中一些是熟悉的。我不知道 Probe Filter 目录是什么,但 CptSupermrkt 上面解释了这一点。
在 PCI 中,北桥连接到内存和处理器。 ECC 错误与 DRAM 相关。每个字都存储有纠错码位。在读取时,会检查它们是否已更新。 ECC 错误是可纠正或不可纠正的,这表明使用写入的位纠正错误的能力。无法纠正并不表示存在永久性硬件错误。当 DRAM 开始出现故障时,就会发生这些情况。
考虑到所有这些,这看起来像是一个暂时性错误。您可以尝试进行完整的内存测试,但这不太可能找到任何结果。如果 DRAM 出现故障,您唯一的纠正措施就是更换它。