我们的一台 Supermicro 服务器在 POST 过程中报告了如下错误:
故障 DIMM:DIMM 位置(找到可纠正的内存组件)
DIMM2 接口
我还可以在 IPMI Web 界面的健康事件日志中看到这一点:
故障 DIMM:DIMM 位置。(找到可更正的内存组件)(DIMMB2)
在我重新启动服务器(出于无关原因)之前,服务器一直运行良好,所以我不知道它的 RAM 出了什么问题。有没有办法在不重新启动服务器的情况下找到此类错误,例如某些 ipmitool 命令?
如果没有,是否有办法至少通过脚本来查看这些错误后服务器已重新启动,即未使用 Web 界面?我试过ipmitool sel elist
,但它将这些条目显示为“未知”事件:
5 | 2019 年 10 月 11 日 | 11:21:25 | 未知 #0xff | | 已断言
编辑:我发现 Supermicro 的专有工具 IPMICFG 可以显示这些事件( ),但如果有一种方法可以做到这一点,并且最重要的是无需重新启动,IPMICFG-Linux.x86_64 -sel list
那就更好了。ipmitool
答案1
尝试使用 FreeIPMI(例如 ipmi-sel):它很有可能比 ipmitool 提供更多信息,因为代码库的维护程度更高