我正在通过 check_nrpe 监控数百个盒子的服务。每当这项服务出现问题时,通常每个盒子都会出现问题,并会收到大量通知/短信。
关于如何或用什么将所有这些汇总到一张支票中,有什么建议吗?
答案1
看起来这是利用 Nagios 依赖系统的一个很好的例子。让所有数百个检查都依赖于这个 check_nrpe,这样应该可以抑制所有无关的通知。
答案2
除了给出的其他好建议之外,如果您真的只是想创建一个新的附加检查,当一组检查中的任何一个触发时触发,请尝试 check_service.plhttp://exchange.nagios.org/directory/Plugins/Others/Check-many-services/details。
答案3
如果是这种情况,首先请确保您正在监控正确的东西。例如,如果问题是交换机发生故障,而您所做的只是监控连接到它的主机,那么您将收到一堆主机宕机警报。其次使用依赖项。这允许 nagios 通知您交换机故障并忽略其后面的所有主机宕机警报。