Nagios/OMD 中一小时后发出警报的联系组

Question

我不想直接反驳另一个人的意见，但 NAGIOS 确实可以做到这一点：你正在寻找的内容在文档中被称为通知升级。

正如纪录片所说，

当且仅当一个或多个升级定义与当前发出的通知相匹配时，通知才会升级。如果主机或服务通知没有任何有效的升级定义，则主机组或服务定义中指定的联系人组将用于通知。

HTTP因此，如果您在主机上调用了一项服务webserver，该服务通常会sysadmins每 30 分钟（比如说）向小组发出一次故障警报，并且您希望在第三次警报未得到确认且未得到修复时让小组managers知道该情况，您可以尝试：

define serviceescalation{
    host_name           webserver
    service_description HTTP
    first_notification  3
    last_notification   5
    contact_groups      nt-admins,managers
    }

就您而言，您不想通知其他人，而是调用脚本。为此，您需要定义一个新的联系人组，其中包含一名成员，该成员具有service_notification_commmand(例如) /usr/local/bin/my-webserver-handling-script。

如果您不想重复调用该脚本，您需要进行调整，first_notification以便last_notification此特定升级仅应用一次。

我还要提醒你不要这样做。我个人不赞成通知系统也成为事件处理系统；我认为它们应该让人类知道某些事情出了问题，然后让人类来处理，原因如下：根据定义，NAGIOS 只会在事情发生时提醒人们不是进展顺利。如果你要自动处理这个问题，你需要极其确保它们以正确的方式失败。例如，如果您要使用此脚本对 Web 服务器进行电源循环，那么您最好非常确定您已正确设置所有主机依赖项，以便中间路由器的故障不会导致您的 Web 服务器开始疯狂重新启动，从而导致文件系统损坏，您必须在修复路由器后处理此问题。

Answer 1