我在 Supermicro X10SLM-F / Xeon E3-1271 v3 上运行 ubuntu server 14.04
内存:SuperTalent 32GB DDR3 1600 ECC
大约每 4 天,Ubuntu 上的日志就会显示以下内容:
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]: Error 0, type: corrected
{1}[Hardware Error]: fru_text: CorrectedErr
{1}[Hardware Error]: section_type: memory error
[Firmware Warn]: error section length is too small
此后,服务器立即以“电源循环”方式重新启动。
当我查看 BIOS 事件日志时,我看到了以下内容:
DATE TIME ERROR CODE SEVERITY
06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2
错误描述如下:
Single Bit ECC Memory Error
Ubuntu 中的 ipmitool 显示以下内容:
ipmitool sel elist
...
...
1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8
几个问题:
如果 ECC 内存具有自我纠正功能,为什么机器会自动重启?
我是不是漏掉了 BIOS 中的一些设置,导致无法阻止盒子自行重启?
这显然是内存条问题还是插槽问题或 CPU 问题?
如何阻止服务器重启?
感谢您的任何建议。
答案1
系统不应该在可纠正的内存错误时重新启动。您是否通过 看到了其他信息/模式ipmitool sel elist
?BMC 看门狗可以重新启动系统,请通过 检查它是否已启用ipmitool mc watchdog get
。由于您已经掌握了坏内存模块位置的信息,请更换它,如果问题再次出现,则内存插槽可能有问题。
X10SLM-F您使用的 RAM 不在经过测试的 RAM 模块列表中 - 如果可能的话,请将“问题”系统中的所有内存条替换为经过 Supermicro 测试的等效内存条。另外,请检查您的 Ubuntu 版本支持的操作系统列表。
与 CMOS 设置相关,您可以使用Supermicro SUM
(前提是您安装了 SUM 键)从所有系统转储 BIOS 设置,然后vimdiff
查看定期重启的系统与不定期重启的系统相比是否有任何 CMOS 参数不同。
sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
答案2
它是 Supermicro 硬件,因此价格低廉,但缺乏 Dell、HP 或 IBM 的完善和集成......
ECC RAM 可以纠正错误,但可能会超出阈值。有问题的 DIMM 可能出现故障,您应该计划更换它。
您可以尝试通过插槽识别模块并更换它。由于这种情况经常发生,因此很容易确定问题所在。
另外,看看相关问题在这个问题的右边。
答案3
我发现这个主板(版本 1.02)有同样的问题。我认为它有一个特定的问题。我买了很多 SM 主板,它们通常都很好。我认为如果所有 DIMMS 都已安装,则该主板存在问题。例如,我正在使用 Windows,然后出现蓝屏。
尝试只使用 16GB(只有 2 个插槽)运行,我敢打赌问题会消失。我知道这不是解决方案,但有助于诊断奇怪的行为。我甚至把一块主板送回了 SM,他们说没问题,也许他们没有用 4 个 DIMM 进行测试。