当事件未发生时，管理员如何发出警报？

Question 1

我在 nagios 中为各种事件设置了被动检查。然后在事件结束时，将被动检查发送到 nagios（通过包装器脚本或内置于事件本身中）。如果在 freshness_threshold 秒内未收到被动检查，它将在本地运行 check_command。check_command 设置为一个简单的 shell 脚本，它返回关键信息和服务描述信息。

我手边没有代码示例，但如果有兴趣的话我可以提供。

编辑一个添加的代码示例：

这假设您已经完成了 NSCA 和 send_nsca 的基本设置（确保客户端上的 send_nsca.cfg 和 nagios 服务器上的 nsca.cfg 中的密码和加密方法相同。然后在 nagios 服务器上启动 nsca 守护程序。）

首先，我们定义一个可供其他被动检查使用的模板。该模板将放入 services.cfg 中。

define service {
    name                    standard-passive-service-template
    active_checks_enabled   0
    passive_checks_enabled  1
    check_freshness         1
    max_check_attempts      1
    normal_check_interval   10
    retry_check_interval    5
    contact_groups          sysadmins
    notification_interval   0
    notification_options    w,u,c,r
    notification_period     24x7
    check_period            24x7
    check_command           check_failed!$SERVICEDESC$
    register                0
}

这表示如果没有收到通知，则以 $SERVICEDESC$ 作为参数运行 check_failed。让我们在 command.cfg 中定义 check_failed 命令。

define command {
    command_name     check_failed
    command_line     /usr/lib/nagios/plugins/check_failed $ARG1$
}

这是/usr/lib/nagios/plugins/check_failed脚本。

#!/bin/bash
/bin/echo "No update from $*. Is NSCA running?"
exit 2

根据 nagios，出口为 2 表示该服务至关重要（请参阅下文了解所有 nagios 服务状态）。采购/usr/lib/nagios/plugins/utils.sh是另一种方式，那么您可以exit $STATE_CRITICAL。但即使您没有这样做，上述方法也可以工作。

这会给出“NSCA 是否正在运行”的附加通知，因为可能是服务未正确签入，也可能是 NSCA 发生故障。这种情况比人们想象的更常见。如果同时收到多个被动检查，请检查 NSCA 是否存在问题。

现在我们需要一个被动检查来接受结果。在这个例子中，我有一个专门制作的 cron 作业，它知道我们环境中所有不同类型的 raid 控制器。当它运行时，它会向这个被动检查发送通知。在这个例子中，我不想在半夜被叫醒（根据需要编辑 notification_period。）

define service {
    use                     standard-passive-service-template
    hostgroup_name          all
    service_description     raidcheck
    notification_period     daytime
    flap_detection_enabled  1
    freshness_threshold     7500 # 125 minutes
    notification_options    c
    is_volatile             0
    servicegroups           raidcheck
}

现在有一个 cronjob 将信息发送回 nagios 服务器。以下是 /etc/cron.d/raidcheck 中的行

0 * * * *  root  /usr/local/bin/raidcheck --cron | /usr/sbin/send_nsca -H nagios -to 1000 >> /dev/null 2>&1

请man send_nsca参阅选项，但重要的部分是“nagios”是我的 nagios 服务器的名称，也是打印在此脚本末尾的字符串。 send_nsca期望在 stdin 上有一行形式（此处为 perl）

print "$hostname\t$check\t$state\t$status_info\n";

$hostname 很明显，$check 在这种情况下是“raidcheck”，$state 是 nagios 服务状态（0 = OK，1 = 警告，2 = 严重，3 = 未知，4 = 依赖。）并且 $status_info 是作为状态信息发送的可选消息。

现在我们可以在客户端的命令行上测试检查：

echo -e "$HOSTNAME\traidcheck\t2\tUh oh, raid degraded (just kidding..)" | /usr/sbin/send_nsca -H nagios

这为我们提供了一个 nagios 被动检查，该检查预计每 freshness_threshold 秒更新一次。如果检查未更新，则运行 check_command（在本例中为 check_failed）。上面的示例适用于 nagios 2.X 安装，但可能适用于 nagios 3.X（可能略作修改）。

Answer