我们拥有 500 余台采用 Supermicro 主板和金士顿内存的服务器,通常会看到以下警报:
# fmdump -v
TIME UUID SUNW-MSG-ID
Oct 27 15:49:44.9379 108510ec-b4e1-c94b-dd9f-f7b2969a4725 INTEL-8001-94
100% fault.memory.intel.dimm_ce
Problem in: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0/rank=1
Affects: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0/rank=1
FRU: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0
Location: DIMM4A
我的问题是:当您在非 Oracle 硬件上运行时,这些故障有多可信?
我们几乎尝试了所有方法(除了再也不使用这些组件),但故障仍然随机出现(例如,更换 dimm4a 后几个月 dimm1b 出现故障,更换所有内存和主板后几天又出现另一个故障)。
我们更换的内存经过了几天的 memtest 测试,从未发现任何问题。使用相同硬件和 Windows 及 Linux 的其他团队没有发现任何问题。Solaris 是不是太敏感了?
现在我们正在进行另一轮内存更换,但这变得越来越麻烦。我们也找不到服务器的任何问题,它们一直运行良好,但随机出现的内存故障令人恐惧。我们应该忽略它们吗?
操作系统:OpenSolaris 2009.6 (b111)
答案1
我只能猜测,但从我读到的内容来看,你遇到的错误是由于可纠正给定时间内的 ECC 错误已超过上限。这肯定是个问题,应该解决。
但是,如果您的其他团队在这些机器上运行 Windows 并且没有遇到任何问题,这可能是因为 Windows 只是纠正了可纠正的 ECC 错误,而在 OpenSolaris 或 FMA 发出警告时保持沉默。
它绝对不应该被忽略。如果我是你,我会花时间进一步调查 Windows 机器,看看是否有可能检查那些已纠正的、可纠正的 ECC 错误。