我在 Dell PowerEdge 服务器上运行 Ubuntu Server。我发现了以下来自服务器的日志条目dmesg
。Dell Pro Support 请求运行 Dell 的 DSET 诊断程序。他们没有发现 DSET 报告的硬件问题,支持人员说此日志消息是 Ubuntu 中的报告问题。这可能是 Ubuntu 中的软件错误吗?
谢谢
萨米
[1457944.748752] sbridge: HANDLING MCE MEMORY ERROR<br>
[1457944.748761] CPU 1: Machine Check Exception: 0 Bank 10: 8c000046000800c1<br>
[1457944.748763] TSC 0 ADDR 2df41c3000 MISC 900080008000c8c PROCESSOR 0:306e4 TIME 1395313612 SOCKET 1 APIC 20<br>
[1457945.659958] EDAC MC1: 1 CE memory scrubbing error on CPU_SrcID#1_Channel#1_DIMM#0 (channel:1 slot:0 page:0x2df41c3 offset:0x0 grain:32 syndrome:0x0 - area:DRAM err_code:0008:00c1 socket:1 channel_mask:1 rank:0)<br>
答案1
我对这个问题进行了更新。最后问题找到了,原因是 DIMM 模块故障。有趣的是,戴尔的所有诊断测试都没有发现这个问题。
答案2
据戴尔称,EDAC 软件实际上隐藏了戴尔自己的硬件工具中的错误。您必须将该模块列入黑名单才能使其通过。
答案3
可能是与硬件相关的错误。
- Fedora 漏洞修复。从评论中可以得出一种诊断方法:
经过大量诊断并与供应商支持人员合作后,看来这几乎肯定是某些版本的 X9DR3-LN4+ 主板的硬件问题。
问题主板在‘dmidecode -t baseboard’中报告“REV:1.10”作为其版本。
在我们的站点,版本为“0123456789”的旧电路板未出现错误,我们正在使用相同型号、版本为“REV:1.20A”的较新电路板替换故障电路板。
在有故障的主板上,错误似乎主要出现在速度更高的 2.90 GHz E5-2690 处理器和完整(24 RDIMM)RAM 配置上,但我们能够使用较少的 RDIMM 重现它。
值得一提的是,memtester 并没有生成错误;我想到的方法是运行缓冲区缓存。因此,在具有 384 GB RAM 的系统上,我将大约 400 GB 的数据放在安装在 的本地文件系统中
/scratch
,然后执行以下操作:while true ; tar cf - /scratch | cat - >/dev/null ; done
(在我的实验中,从 tar 写入 /dev/null 不起作用...需要“cat - >/dev/null”。)在运行时,您可以使用以下命令检查错误计数:
cat /sys/devices/system/edac/mc/mc?/ce*count
观察到的错误率通常为每小时至少一个 MCE 错误
- 您可以执行其他一些可能的检查:我收到 MCE(机器检查异常)错误,这是什么意思?
。