Nagios 如何处理非基于阈值的插件?

Nagios 如何处理非基于阈值的插件?

我正在编写一个 Nagios 插件来监控某个存储资源利用率的趋势(例如,逐渐增加是可以的,但资源使用率的瞬间/突然增加或减少可能表明存在问题)。值得一提的是,它正在审查由自定义 cacti 数据源/模板生成的 RRD 文件中的最后 N 个条目。

处理 Nagios 通知配置/实现的“正确”方法是什么?问题是,插件会在一个轮询周期内以警告/严重状态退出,但在下一个轮询周期内会正常(或者 3 个轮询周期后,如果我查看 3 个轮询周期的数据)。

我想问题是:我是否应该以这样一种方式编写它,以便它会在 X 个轮询期间发出警报,或者我是否应该找到一种方法来编写它,以便需要手动干预才能清除它(例如登录到监控服务器或点击 URL 来运行提交被动结果的脚本)?

非常感谢您的意见,如果您对如何实现后者有任何建议,我很乐意听取(我可以想到几种可能实现它的方法)

编辑:下面 dunxd 的“回答”有助于更简洁地说明我所寻找的内容。我实际上正在寻找有关在 Nagios 中设置/实现“粘性”警报的最佳方法的意见。我见过其他系统这样做,但到目前为止还没有 Nagios 这样做。

答案1

这取决于如何处理警报。您希望有人在阈值事件发生时注意到。

如果他们正在生成电子邮件不会被忽视或者您知道有人定期检查 Nagios 趋势,那么只使用标准 Nagios 行为可能就可以了。

如果您认为这不会引起任何人的注意,那么您可能希望服务状态为“粘性”。我不知道有任何 Nagios 检查具有此行为,但我也有兴趣了解它们。

答案2

我认为它应该保持粘性,直到趋势结果不再符合警报级别(应该是您计算的速率)。实际上,这并不是真正的粘性。:>

相关内容