我们使用 nagios 来监控我们的服务器群,通常它工作得很好。但是,有时,运行 nagios 的主机会断开几分钟的连接,这会让 nagios 认为它监控的所有服务器和服务都已关闭。结果是数百封警报邮件,紧接着是数百封恢复邮件。
有没有什么方法可以配置 nagios,使其在发布大量警报邮件之前测试自己的连接性?
答案1
是的,您可以设置父级和子级。如果父级发生故障,则不会发出有关子级的通知。不过,您确实需要正确设置时间(在 generic_service 和 generic_host 或您使用的任何模板中),因为当服务不再可用时,它需要先确定父级发生故障,然后才会为这些服务发送通知。
我所做的是这样的:
# ISP gateway (first in traceroute)
define host {
host_name kpn-gateway
alias KPN Gateway
address 1.2.3.4
use generic-host
notification_period never
parents experia
}
# gateway in datacenter
define host {
host_name duocast-gateway
alias Duocast gateway
address 5.6.7.8
use generic-host
parents kpn-gateway
contact_groups bla
}
# one of the hosts in datacenter.
define host {
host_name brick
alias host.example.com
address a.b.c.d
use generic-linux-host
parents duocast-gateway
contact_groups geborsteldstaal
}