ECC 内存错误导致服务器随机重启

ECC 内存错误导致服务器随机重启

我在 Supermicro X10SLM-F / Xeon E3-1271 v3 上运行 ubuntu server 14.04

内存:SuperTalent 32GB DDR3 1600 ECC

大约每 4 天,Ubuntu 上的日志就会显示以下内容:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

此后,服务器立即以“电源循环”方式重新启动。

当我查看 BIOS 事件日志时,我看到了以下内容:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

错误描述如下:

Single Bit ECC Memory Error

Ubuntu 中的 ipmitool 显示以下内容:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

几个问题:

  1. 如果 ECC 内存具有自我纠正功能,为什么机器会自动重启?

  2. 我是不是漏掉了 BIOS 中的一些设置,导致无法阻止盒子自行重启?

  3. 这显然是内存条问题还是插槽问题或 CPU 问题?

  4. 如何阻止服务器重启?

感谢您的任何建议。

答案1

系统不应该在可纠正的内存错误时重新启动。您是否通过 看到了其他信息/模式ipmitool sel elist?BMC 看门狗可以重新启动系统,请通过 检查它是否已启用ipmitool mc watchdog get。由于您已经掌握了坏内存模块位置的信息,请更换它,如果问题再次出现,则内存插槽可能有问题。

X10SLM-F您使用的 RAM 不在经过测试的 RAM 模块列表中 - 如果可能的话,请将“问题”系统中的所有内存条替换为经过 Supermicro 测试的等效内存条。另外,请检查您的 Ubuntu 版本支持的操作系统列表。

与 CMOS 设置相关,您可以使用Supermicro SUM(前提是您安装了 SUM 键)从所有系统转储 BIOS 设置,然后vimdiff查看定期重启的系统与不定期重启的系统相比是否有任何 CMOS 参数不同。

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

答案2

它是 Supermicro 硬件,因此价格低廉,但缺乏 Dell、HP 或 IBM 的完善和集成......

ECC RAM 可以纠正错误,但可能会超出阈值。有问题的 DIMM 可能出现故障,您应该计划更换它。

您可以尝试通过插槽识别模块并更换它。由于这种情况经常发生,因此很容易确定问题所在。

另外,看看相关问题在这个问题的右边。

答案3

我发现这个主板(版本 1.02)有同样的问题。我认为它有一个特定的问题。我买了很多 SM 主板,它们通常都很好。我认为如果所有 DIMMS 都已安装,则该主板存在问题。例如,我正在使用 Windows,然后出现蓝屏。

尝试只使用 16GB(只有 2 个插槽)运行,我敢打赌问题会消失。我知道这不是解决方案,但有助于诊断奇怪的行为。我甚至把一块主板送回了 SM,他们说没问题,也许他们没有用 4 个 DIMM 进行测试。

相关内容