我使用 check_mk_agent 监控安装了 IPMI 和 freeipmi-tools 的服务器。据我所知,监控随机检测到 IPMI 传感器“Temperature_PCH_Temp”没有返回任何值。
这是一个问题,因为它会导致触发通知的 CRITICAL 状态。中断仅持续一次检查,后续检查始终正常。温度不在边缘区域,故障前后的读数均未显示温度趋于超过阈值。
有人知道这种行为可能是什么原因造成的以及如何防止它吗?
答案1
适用于我的 X9DRD-iF 的 Supermicro IPMI 01.78 版。您可以在以下网址下载http://www.supermicro.com/about/policies/disclaimer.cfm?url=/support/resources/getfile.aspx?ID=1940
答案2
听起来像是硬件故障(IPMI 板不稳定、传感器损坏)——您应该联系硬件供应商并报告问题,看看是否可以更换。
答案3
FreeIPMI ipmi-sensor/ipmimonitoring 工具在发现没有返回读数的传感器时会报告 N/A。虽然这种情况很少见(而且正如 voretaq7 所说,这可能是一个损坏的传感器),但 IPMI 传感器简单地说“我现在没有您的读数”并不奇怪。
我无法说出 check_mk_agent 脚本中的内容,它可能认为“N/A”很关键并以此方式报告。
远程系统(如果被破坏)也可能会向您返回非法值,这可能会导致使用--output-sensor-state时出现“CRITICAL”状态。
您可能需要查看 --ignore-not-available-sensors 或 --ignore-unrecognized-events 选项是否能帮助您解决这种情况。
答案4
您确实已配置检查重试 - 所以它不会因为短暂的故障而提醒您,对吗?
顺便说一句,我认为 Albert Chu 关于 N/A 处理不正确的说法是正确的。它可能只在系统首次盘点时进行评估;check_mk 邮件列表中有一封包含相关补丁的邮件,由名为 Bernhard Schmidt 的用户发送。
但是,正如这个帖子所证明的,这些问题基本上总是与硬件问题有关:)