Nagios 能否针对长时间发生的危急情况发送警报?

Nagios 能否针对长时间发生的危急情况发送警报?

nagios 中是否有任何插件或工具可以做到这一点?例如:CPU 负载在 2 秒内上升到 80% 不会有问题。如果负载保持在 80%++ 至少 5 分钟,我希望收到警报。这可能吗?

答案1

当服务正常时,Nagios 会每check_interval分钟检查一次服务(技术上是这样的interval_length,但通常是一分钟)。当服务检查失败时,Nagios 将开始每retry_interval分钟检查一次服务,并且只有在服务仍然处于检查失败状态时才会发送警报max_check_attempts。请参阅文档了解所有详细信息。

考虑到这一点,您可以将retry_interval其放大,或将其设置max_check_attempts得较大,或两者兼而有之,以增加服务在报告错误之前必须处于失败状态的时间。

因此,如果您只想在服务失败超过五分钟后发出警报,则可以设置retry_interval为 1 和max_check_attempts5。请注意,默认值为(我认为)retry_interval= 1 和max_check_attempts= 3。

答案2

您可以随时编写自己的检查脚本。例如,您可以特区在 cron 上运行并且您的自定义 nagios 检查控制来自 sar 的最后 30 分钟的样本。

相关内容