主板每隔几分钟就会因 DIMM 插槽过热而发出错误警报

主板每隔几分钟就会因 DIMM 插槽过热而发出错误警报

我正在将一块较旧的 Supermicro X9DRG-QF 主板重新用作 VM 主机。不久前,这台机器在数字安装中表现出色,没有出现任何错误,因此我可以确认它在之前的工作中运行良好。我已将 RAM 升级到 128GB,使用 8x16GB DDR3-1866MHz PC3-14900 ECC RAM,并且我安装了 FreeNAS 11.2 进行测试。运行良好,没有问题。

我最近一直在测试 VMware ESXi,由于某种原因,主板现在报告一个(且只有一个)DIMM 插槽进入了 UNR 区域(从 IPMI 仪表板下的实时报告中看到为 127 摄氏度),但通过直接观察(触摸),我可以确认 DIMM 温度实际上并没有超出范围(甚至没有超出范围)。

我尝试在插槽之间交换 DIMM,以便确认这不是特定的 DIMM。这是否意味着主板出现故障?任何有关如何隔离问题的建议都将不胜感激。

达伦

答案1

您可能已经足够精确地隔离了问题。您甚至使用 IPMI 卡排除了特定于操作系统的问题。此时,可以合理地断言您的硬件或固件存在故障。

您可以尝试重置或升级固件。但更可能的是硬件出现故障(此问题最近才“出现”,更换 DIMM 后仍然存在)。

相关内容