延迟 munin 通知

延迟 munin 通知

我有几个由 munin 监控的服务器,经常会有某个单元出现暂时无法读取数据的故障。这时我会收到两封电子邮件,一封告诉我所有值都是未知的,另一封在五分钟后通知我一切都正常。

据我所知,munin 在此处按设计运行,但我想知道是否有任何方法可以延迟发送初始“未知”警报一个更新周期,这样就不会报告瞬时未知情况?我当前的所有设置都是为了训练我忽略警告邮件。

除此之外,有没有办法可以完全禁止发送“未知”警报及其相应的恢复警报?

答案1

我实际上不使用 Munin,但据我所知unknown_limit可以为项目/插件设置一个设置,该设置定义了在将值设置为“未知”之前应该发生多少次连续不成功的读取。

根据 Munin::LimitsOld 模块,其默认为 3,我认为您应该尝试设置或增加这个数字。

我已经在 Munin 1.4.5 上检查了这一点。

答案2

我通过让 munin 通知(不是直接通知最终用户,而是通过 NSCA 通知到 NAGIOS)并让 NAGIOS 处理通知来实现这一点。这意味着我可以使用 NAGIOS(更为复杂)的控制来控制通知延迟、频率、升级等。是的,NAGIOS 作为通知引擎已经相当重,但您也可以使用它进行定性(而非定量)监控。

答案3

请记住,使用开源工具的一大好处是,您可以查看源代码以确切了解它们的作用(如果您不喜欢,可以更改其行为)。快速扫描 LimitsOld.pm 表明,Gábor 的建议是正确的方法 - 可以根据每个服务或全局设置 unknown_limit,并出现在 Munin 1.4.4 左右(请参阅http://munin-monitoring.org/ticket/828)。

相关内容