让 Nagios 检查不总是在线的工作站

让 Nagios 检查不总是在线的工作站

我们尝试监控某些工作站上的文件年龄。使用 NSClient++ 运行良好 - 但我们不希望在计算机关闭时收到任何 CRITICAL。

对于主机,我们确实有一个虚拟检查,每次检查都返回 OK。但是当工作站处于离线状态时,文件年龄检查会失败,并显示“连接被拒绝”。

您有什么提示可以帮助避免这些 CRITICAL 吗?

答案1

如果服务与主机(名称)相关联,则如果 check-host-alive(或您配置的任何内容)测试失败,则不会发送服务警报。请记住在 max_checks 中添加一个误差幅度,以考虑计算机关闭但仍响应 ping(或您用于 check-host-alive 的任何内容)的情况。

或者,如果你的文件年龄检查器只发出 WARNING,而不是 CRITICAL,其中 WARNING 是文件年龄超出范围的错误,而 CRITICAL 是主机不可达的错误,则只需屏蔽 CRITICAL:

service_notification_options w,u,r

也就是说,如果这是你的目标,你真正应该做的是重写插件以在这种情况下返回 UNKNOWN,在这种情况下它将是:

service_notification_options c,w,r

答案2

工作站是否在可预测的时间关闭?即它们是否只在上午 9 点至下午 5 点之间开启,或类似时间?如果是这样,您可以在 Nagios 中定义一个时间段并将其应用于工作站;然后它们只会在该时间段内进行检查。

答案3

您是否尝试过使用 check_nrpe 中的 -u 选项?

相关内容