机器检查异常

机器检查异常

我在 Dell PowerEdge 服务器上运行 Ubuntu Server。我发现了以下来自服务器的日志条目dmesg。Dell Pro Support 请求运行 Dell 的 DSET 诊断程序。他们没有发现 DSET 报告的硬件问题,支持人员说此日志消息是 Ubuntu 中的报告问题。这可能是 Ubuntu 中的软件错误吗?

谢谢

萨米

[1457944.748752] sbridge: HANDLING MCE MEMORY ERROR<br>
[1457944.748761] CPU 1: Machine Check Exception: 0 Bank 10: 8c000046000800c1<br>
[1457944.748763] TSC 0 ADDR 2df41c3000 MISC 900080008000c8c PROCESSOR 0:306e4 TIME 1395313612 SOCKET 1 APIC 20<br>
[1457945.659958] EDAC MC1: 1 CE memory scrubbing error on CPU_SrcID#1_Channel#1_DIMM#0 (channel:1 slot:0 page:0x2df41c3 offset:0x0 grain:32 syndrome:0x0 -  area:DRAM err_code:0008:00c1 socket:1 channel_mask:1 rank:0)<br>

答案1

我对这个问题进行了更新。最后问题找到了,原因是 DIMM 模块故障。有趣的是,戴尔的所有诊断测试都没有发现这个问题。

答案2

据戴尔称,EDAC 软件实际上隐藏了戴尔自己的硬件工具中的错误。您必须将该模块列入黑名单才能使其通过。

http://www.dell.com/support/article/us/en/19/SLN283389/EN/

答案3

可能是与硬件相关的错误。

经过大量诊断并与供应商支持人员合作后,看来这几乎肯定是某些版本的 X9DR3-LN4+ 主板的硬件问题。

问题主板在‘dmidecode -t baseboard’中报告“REV:1.10”作为其版本。

在我们的站点,版本为“0123456789”的旧电路板未出现错误,我们正在使用相同型号、版本为“REV:1.20A”的较新电路板替换故障电路板。

在有故障的主板上,错误似乎主要出现在速度更高的 2.90 GHz E5-2690 处理器和完整(24 RDIMM)RAM 配置上,但我们能够使用较少的 RDIMM 重现它。

值得一提的是,memtester 并没有生成错误;我想到的方法是运行缓冲区缓存。因此,在具有 384 GB RAM 的系统上,我将大约 400 GB 的数据放在安装在 的本地文件系统中/scratch,然后执行以下操作:

while true ; tar cf - /scratch | cat - >/dev/null ; done

(在我的实验中,从 tar 写入 /dev/null 不起作用...需要“cat - >/dev/null”。)在运行时,您可以使用以下命令检查错误计数:

cat /sys/devices/system/edac/mc/mc?/ce*count

观察到的错误率通常为每小时至少一个 MCE 错误

相关内容