ECC 内存错误导致服务器随机重启

Question 1

系统不应该在可纠正的内存错误时重新启动。您是否通过看到了其他信息/模式ipmitool sel elist？BMC 看门狗可以重新启动系统，请通过检查它是否已启用ipmitool mc watchdog get。由于您已经掌握了坏内存模块位置的信息，请更换它，如果问题再次出现，则内存插槽可能有问题。

X10SLM-F您使用的 RAM 不在经过测试的 RAM 模块列表中 - 如果可能的话，请将“问题”系统中的所有内存条替换为经过 Supermicro 测试的等效内存条。另外，请检查您的 Ubuntu 版本支持的操作系统列表。

与 CMOS 设置相关，您可以使用Supermicro SUM（前提是您安装了 SUM 键）从所有系统转储 BIOS 设置，然后vimdiff查看定期重启的系统与不定期重启的系统相比是否有任何 CMOS 参数不同。

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Answer

系统不应该在可纠正的内存错误时重新启动。您是否通过看到了其他信息/模式ipmitool sel elist？BMC 看门狗可以重新启动系统，请通过检查它是否已启用ipmitool mc watchdog get。由于您已经掌握了坏内存模块位置的信息，请更换它，如果问题再次出现，则内存插槽可能有问题。

X10SLM-F您使用的 RAM 不在经过测试的 RAM 模块列表中 - 如果可能的话，请将“问题”系统中的所有内存条替换为经过 Supermicro 测试的等效内存条。另外，请检查您的 Ubuntu 版本支持的操作系统列表。

与 CMOS 设置相关，您可以使用Supermicro SUM（前提是您安装了 SUM 键）从所有系统转储 BIOS 设置，然后vimdiff查看定期重启的系统与不定期重启的系统相比是否有任何 CMOS 参数不同。

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Question 2

它是 Supermicro 硬件，因此价格低廉，但缺乏 Dell、HP 或 IBM 的完善和集成......

ECC RAM 可以纠正错误，但可能会超出阈值。有问题的 DIMM 可能出现故障，您应该计划更换它。

您可以尝试通过插槽识别模块并更换它。由于这种情况经常发生，因此很容易确定问题所在。

另外，看看相关问题在这个问题的右边。

Answer