无需重启即可检测 POST 期间报告的 Supermicro DIMM(内存)错误

无需重启即可检测 POST 期间报告的 Supermicro DIMM(内存)错误

我们的一台 Supermicro 服务器在 POST 过程中报告了如下错误:

故障 DIMM:DIMM 位置(找到可纠正的内存组件)

DIMM2 接口

我还可以在 IPMI Web 界面的健康事件日志中看到这一点:

故障 DIMM:DIMM 位置。(找到可更正的内存组件)(DIMMB2)

在我重新启动服务器(出于无关原因)之前,服务器一直运行良好,所以我不知道它的 RAM 出了什么问题。有没有办法在不重新启动服务器的情况下找到此类错误,例如某些 ipmitool 命令?

如果没有,是否有办法至少通过脚本来查看这些错误服务器已重新启动,即未使用 Web 界面?我试过ipmitool sel elist,但它将这些条目显示为“未知”事件:

5 | 2019 年 10 月 11 日 | 11:21:25 | 未知 #0xff | | 已断言

编辑:我发现 Supermicro 的专有工具 IPMICFG 可以显示这些事件( ),但如果有一种方法可以做到这一点,并且最重要的是无需重新启动,IPMICFG-Linux.x86_64 -sel list那就更好了。ipmitool

答案1

尝试使用 FreeIPMI(例如 ipmi-sel):它很有可能比 ipmitool 提供更多信息,因为代码库的维护程度更高

相关内容