如果主机失去连接,则限制 nagios 发出警报

如果主机失去连接,则限制 nagios 发出警报

我们使用 nagios 来监控我们的服务器群,通常它工作得很好。但是,有时,运行 nagios 的主机会断开几分钟的连接,这会让 nagios 认为它​​监控的所有服务器和服务都已关闭。结果是数百封警报邮件,紧接着是数百封恢复邮件。

有没有什么方法可以配置 nagios,使其在发布大量警报邮件之前测试自己的连接性?

答案1

是的,您可以设置父级和子级。如果父级发生故障,则不会发出有关子级的通知。不过,您确实需要正确设置时间(在 generic_service 和 generic_host 或您使用的任何模板中),因为当服务不再可用时,它需要先确定父级发生故障,然后才会为这些服务发送通知。

我所做的是这样的:

# ISP gateway (first in traceroute)
define host {
        host_name   kpn-gateway
        alias       KPN Gateway
        address     1.2.3.4
        use         generic-host
        notification_period  never
        parents     experia
}

# gateway in datacenter
define host {
        host_name   duocast-gateway
        alias       Duocast gateway
        address     5.6.7.8
        use         generic-host
        parents     kpn-gateway
        contact_groups bla
}

# one of the hosts in datacenter.
define host {
        host_name   brick
        alias       host.example.com
        address     a.b.c.d
        use         generic-linux-host
        parents     duocast-gateway
        contact_groups geborsteldstaal
}

相关内容