我有一台运行 Windows 2016 的 HP DL380G10 服务器。在过去的几天里,HP 的无代理管理服务开始启动系统关闭,并显示以下消息:
事件 ID 521、IML 类别代码 2、事件代码 19 的描述:系统过热(温度传感器 30、位置 I/O 板、温度 127)检查风扇、处理器散热器和空气挡板的安装。
同时,系统风扇开始以最大速度运转 5-10 秒,噪音很大,直到关机。这些过热事件在我访问 BIOS 时也会发生,因此我认为这与系统无关。在 BIOS 中,风扇每五分钟左右达到最大速度,以最大速度运转 10 秒,然后恢复正常水平。在 BIOS 中系统不会关闭。如果我通过 ILO 监控所有温度,则在这些事件期间温度不会飙升。
30-PCI 1 I/O 板 13 13 正常 40C 警告:100C;严重:N/A
31-PCI 1 区域 I/O 板 13 13 正常 35C 警告:75C;严重:80C
尽管 ILO 确实检测到了问题,因为当风扇开始达到最大速度时,健康图标会短暂变红,但这些读数没有任何变化。我怀疑传感器 30 出现故障,在短时间内达到最大速度,从而启动紧急冷却和关机。有没有办法以更高的频率、接近实时地监控这些温度?我还注意到,当发生这种情况时,所有其他系统温度传感器的读数也不会发生显着变化。