我们尝试监控某些工作站上的文件年龄。使用 NSClient++ 运行良好 - 但我们不希望在计算机关闭时收到任何 CRITICAL。
对于主机,我们确实有一个虚拟检查,每次检查都返回 OK。但是当工作站处于离线状态时,文件年龄检查会失败,并显示“连接被拒绝”。
您有什么提示可以帮助避免这些 CRITICAL 吗?
答案1
如果服务与主机(名称)相关联,则如果 check-host-alive(或您配置的任何内容)测试失败,则不会发送服务警报。请记住在 max_checks 中添加一个误差幅度,以考虑计算机关闭但仍响应 ping(或您用于 check-host-alive 的任何内容)的情况。
或者,如果你的文件年龄检查器只发出 WARNING,而不是 CRITICAL,其中 WARNING 是文件年龄超出范围的错误,而 CRITICAL 是主机不可达的错误,则只需屏蔽 CRITICAL:
service_notification_options w,u,r
也就是说,如果这是你的目标,你真正应该做的是重写插件以在这种情况下返回 UNKNOWN,在这种情况下它将是:
service_notification_options c,w,r
答案2
工作站是否在可预测的时间关闭?即它们是否只在上午 9 点至下午 5 点之间开启,或类似时间?如果是这样,您可以在 Nagios 中定义一个时间段并将其应用于工作站;然后它们只会在该时间段内进行检查。
答案3
您是否尝试过使用 check_nrpe 中的 -u 选项?