机器检查异常

Question 1

我对这个问题进行了更新。最后问题找到了，原因是 DIMM 模块故障。有趣的是，戴尔的所有诊断测试都没有发现这个问题。

Answer

我对这个问题进行了更新。最后问题找到了，原因是 DIMM 模块故障。有趣的是，戴尔的所有诊断测试都没有发现这个问题。

Question 2

据戴尔称，EDAC 软件实际上隐藏了戴尔自己的硬件工具中的错误。您必须将该模块列入黑名单才能使其通过。

http://www.dell.com/support/article/us/en/19/SLN283389/EN/

Answer

据戴尔称，EDAC 软件实际上隐藏了戴尔自己的硬件工具中的错误。您必须将该模块列入黑名单才能使其通过。

http://www.dell.com/support/article/us/en/19/SLN283389/EN/

Question 3

可能是与硬件相关的错误。

Fedora 漏洞修复。从评论中可以得出一种诊断方法：

经过大量诊断并与供应商支持人员合作后，看来这几乎肯定是某些版本的 X9DR3-LN4+ 主板的硬件问题。

问题主板在‘dmidecode -t baseboard’中报告“REV:1.10”作为其版本。

在我们的站点，版本为“0123456789”的旧电路板未出现错误，我们正在使用相同型号、版本为“REV:1.20A”的较新电路板替换故障电路板。

在有故障的主板上，错误似乎主要出现在速度更高的 2.90 GHz E5-2690 处理器和完整（24 RDIMM）RAM 配置上，但我们能够使用较少的 RDIMM 重现它。

值得一提的是，memtester 并没有生成错误；我想到的方法是运行缓冲区缓存。因此，在具有 384 GB RAM 的系统上，我将大约 400 GB 的数据放在安装在的本地文件系统中/scratch，然后执行以下操作：
while true ; tar cf - /scratch | cat - >/dev/null ; done
（在我的实验中，从 tar 写入 /dev/null 不起作用...需要“cat - >/dev/null”。）在运行时，您可以使用以下命令检查错误计数：
cat /sys/devices/system/edac/mc/mc?/ce*count
观察到的错误率通常为每小时至少一个 MCE 错误

您可以执行其他一些可能的检查：我收到 MCE（机器检查异常）错误，这是什么意思？

。

Answer

可能是与硬件相关的错误。

Fedora 漏洞修复。从评论中可以得出一种诊断方法：

经过大量诊断并与供应商支持人员合作后，看来这几乎肯定是某些版本的 X9DR3-LN4+ 主板的硬件问题。

问题主板在‘dmidecode -t baseboard’中报告“REV:1.10”作为其版本。

在我们的站点，版本为“0123456789”的旧电路板未出现错误，我们正在使用相同型号、版本为“REV:1.20A”的较新电路板替换故障电路板。

在有故障的主板上，错误似乎主要出现在速度更高的 2.90 GHz E5-2690 处理器和完整（24 RDIMM）RAM 配置上，但我们能够使用较少的 RDIMM 重现它。

值得一提的是，memtester 并没有生成错误；我想到的方法是运行缓冲区缓存。因此，在具有 384 GB RAM 的系统上，我将大约 400 GB 的数据放在安装在的本地文件系统中/scratch，然后执行以下操作：
while true ; tar cf - /scratch | cat - >/dev/null ; done
（在我的实验中，从 tar 写入 /dev/null 不起作用...需要“cat - >/dev/null”。）在运行时，您可以使用以下命令检查错误计数：
cat /sys/devices/system/edac/mc/mc?/ce*count
观察到的错误率通常为每小时至少一个 MCE 错误

您可以执行其他一些可能的检查：我收到 MCE（机器检查异常）错误，这是什么意思？

。

机器检查异常

答案1

答案2

答案3

相关内容