Nagios - 不确定应该更改哪个间隔以限制发生错误时发送通知的次数

Nagios - 不确定应该更改哪个间隔以限制发生错误时发送通知的次数

我有一台 Nagios 服务器,它监控许多服务器。有时我们会遇到一个当时无法解决的错误,我们暂时将其搁置。当这种情况发生时,我们会不断收到有关故障服务的电子邮件通知。因此,如果我们第二天不处理该问题 - 我们会收到大约 500 封有关它的电子邮件通知。现在我的问题是,notification_interval 和 interval_length 之间有什么区别,我应该编辑哪个值?我愿意以这样的方式配置它,当发生错误时,我只会收到 1 条有关该问题的通知,而不是每小时收到 10 条通知。我希望 Nagios 在发生错误时只向我发送一次电子邮件,并且每 12 小时发送一次,直到错误修复。如何实现?

答案1

您可能应该保留这些设置并使用致谢Nagios 中的功能。

这样您就可以告诉 Nagios 您知道该问题,然后它将抑制发出的通知,直到状态发生变化(即情况变得更糟,或开始不稳定,或者错误消失,在这种情况下警报也会停止)。

确认主机问题以便更好地解释它的作用。抱歉,我找不到比这个更新的页面,但它已经足够解释这个概念了。

直接回答你的问题,尽管我认为有更好的方法:

  • 间隔长度是秒数 - 默认为 60
  • 通知间隔是您希望通知之间的间隔长度数。如果您保留 interval_length 不变,则这将是通知之间的分钟数。

因此,要使通知间隔为 12 小时,你可以将 notification_interval 设置为 720,然后保留间隔长度独自的。

但我仍然认为确认设置更好,因为它允许唠叨ios 保留唠叨直到你的团队采取某种行动。

请注意,无论哪种方式,Nagios 仍可能会根据情况更频繁地发送通知。我收到过与 CPU 使用率有关的警报,它在临界阈值之上和之下之间波动 - 无论我做什么,每次超过临界阈值时,都会发出警报。Nagios 中的抖动检测用于处理这些情况。或者您可能想查看警报阈值。

答案2

notification_interval 和 interval_length 有什么区别

  • interval_length:每“单位间隔”的秒数,默认值为 60
  • notification_interval:重新通知之前要等待的“时间单位”数

我愿意以这样的方式进行配置,当发生错误时,我只会收到有关该问题的 1 条通知,而不是例如每小时收到 10 条通知。

设置notification_interval为 0,Nagios 将不会重新通知联系人有关此服务/主机的问题。

我希望 Nagios 在发生错误时仅向我发送一次电子邮件,并且每 12 小时发送一次,直到错误修复。

如果您没有更改interval_length,只需设置notification_interval为...720。

相关内容