我没有使用 Nagios Core 4 收到邮件通知

Question 1

从您的信息中nagios.log，我仅看到 SOFT 状态错误。Nagios 不会针对 SOFT 状态发送任何通知，只有在 HARD 状态时才会发送通知。来自 Nagios 文档：

软状态

在下列情况下，服务和主机会出现软状态……

1) 当服务或主机检查结果为非正常状态，并且尚未按照服务或主机定义中的选项指定的次数进行（重新）检查时。我们称之为软错误状态...

2) 当服务或主机从软错误状态恢复时。这被视为软恢复。

软状态事件

当服务或主机处于软错误状态或经历软恢复时会发生什么？

1) 如果您在主配置文件中启用了 log_service_retries 或 log_host_retries 选项，则会记录软错误或恢复。

2) 执行事件处理程序（如果您定义了任何事件处理程序）来处理服务或主机的软错误或恢复。（在执行任何事件处理程序之前，$STATETYPE$ 宏设置为“SOFT”）。Nagios 不会向任何联系人发送通知，因为服务或主机没有（或曾经没有）“真正”的问题。

可以看出，在软状态期间真正发生的唯一重要的事情是事件处理程序的执行。如果您想在问题转变为硬状态之前尝试主动修复问题，使用事件处理程序会特别有用。

艰难状态

主机和服务在下列情况下会出现硬状态：

1) 当主机或服务检查结果为非 UP 或非 OK 状态，并且已（重新）检查主机或服务定义中的 max_check_attempts 选项指定的次数。这是一种硬错误状态。

2）当主机或服务从一种硬错误状态转变为另一种错误状态时（例如从 WARNING 转变为 CRITICAL）。

3）当服务检查结果为非OK状态，且其对应主机处于DOWN或UNREACHABLE状态。

4) 当主机或服务从硬错误状态恢复时。这被视为硬恢复。

5) 当收到被动主机检查时。除非启用了passive_host_checks_are_soft选项，否则被动主机检查将被视为HARD。

当主机或服务经历 HARD 状态变化时，会发生以下情况：

1) 记录 HARD 状态。2) 执行事件处理程序来处理 HARD 状态。3) 通知联系人主机或服务问题或恢复情况。

因此，从您在示例中提供的日志中看到的情况来看，Nagios 无需发送邮件。您应该在其中一个受监控的服务上创建一个错误条件，让此条件存在一段时间，然后查看当 nagios.log 中的状态更改为 HARD 时您是否真的收到了邮件。

我注意到的最后一件事是，在您的命令行测试中，您发送邮件到[email protected]contacts.cfg 中定义的邮件地址[email protected]（也许您在邮件服务器上定义了别名，也可能没有）。

在问题中添加日志后添加 在你展示的中nagios.log，没有服务通知行，因此即使错误处于 HARD 状态，Nagios 也不会尝试发出通知。要使通知在 Nagios 中正常工作，仅定义好联系人、联系人组和通知命令是不够的。如果您想在发生错误时发送通知，您必须配置每个服务和主机，当然还要配置向哪些联系人和/或联系人组发送此通知。例如，这是一个已配置并正常工作的通知服务定义：

define service {
    name                                  generic-service
    first_notification_delay              0
    notification_interval                 0
    notification_options                  w,u,c,r
    notifications_enabled                 1
    check_period                          24x7
    notification_period                   24x7
    contact_groups                        admins
}

在上述定义中，notification_enabled设置为 1（真），并指定要向其发送通知的联系人组。此外，我们定义了要发送哪种通知 - w（警告）、u（未知）、c（严重）和 r（恢复）。

上述定义被我的所有服务用作模板：

use generic-service

存在于我的所有服务定义中。这样，如果我需要更改通知选项，我只需更改定义generic-service。就您而言，您的配置显示您的服务正在使用名为的模板generic-service。我建议检查其定义，以查看通知是否像我上面给出的示例一样配置。其定义可以位于名为的文件中，services-templates.cfg但这可能会有所不同。

Answer

从您的信息中nagios.log，我仅看到 SOFT 状态错误。Nagios 不会针对 SOFT 状态发送任何通知，只有在 HARD 状态时才会发送通知。来自 Nagios 文档：

软状态

在下列情况下，服务和主机会出现软状态……

1) 当服务或主机检查结果为非正常状态，并且尚未按照服务或主机定义中的选项指定的次数进行（重新）检查时。我们称之为软错误状态...

2) 当服务或主机从软错误状态恢复时。这被视为软恢复。

软状态事件

当服务或主机处于软错误状态或经历软恢复时会发生什么？

1) 如果您在主配置文件中启用了 log_service_retries 或 log_host_retries 选项，则会记录软错误或恢复。

2) 执行事件处理程序（如果您定义了任何事件处理程序）来处理服务或主机的软错误或恢复。（在执行任何事件处理程序之前，$STATETYPE$ 宏设置为“SOFT”）。Nagios 不会向任何联系人发送通知，因为服务或主机没有（或曾经没有）“真正”的问题。

可以看出，在软状态期间真正发生的唯一重要的事情是事件处理程序的执行。如果您想在问题转变为硬状态之前尝试主动修复问题，使用事件处理程序会特别有用。

艰难状态

主机和服务在下列情况下会出现硬状态：

1) 当主机或服务检查结果为非 UP 或非 OK 状态，并且已（重新）检查主机或服务定义中的 max_check_attempts 选项指定的次数。这是一种硬错误状态。

2）当主机或服务从一种硬错误状态转变为另一种错误状态时（例如从 WARNING 转变为 CRITICAL）。

3）当服务检查结果为非OK状态，且其对应主机处于DOWN或UNREACHABLE状态。

4) 当主机或服务从硬错误状态恢复时。这被视为硬恢复。

5) 当收到被动主机检查时。除非启用了passive_host_checks_are_soft选项，否则被动主机检查将被视为HARD。

当主机或服务经历 HARD 状态变化时，会发生以下情况：

1) 记录 HARD 状态。2) 执行事件处理程序来处理 HARD 状态。3) 通知联系人主机或服务问题或恢复情况。

因此，从您在示例中提供的日志中看到的情况来看，Nagios 无需发送邮件。您应该在其中一个受监控的服务上创建一个错误条件，让此条件存在一段时间，然后查看当 nagios.log 中的状态更改为 HARD 时您是否真的收到了邮件。

我注意到的最后一件事是，在您的命令行测试中，您发送邮件到[email protected]contacts.cfg 中定义的邮件地址[email protected]（也许您在邮件服务器上定义了别名，也可能没有）。

在问题中添加日志后添加 在你展示的中nagios.log，没有服务通知行，因此即使错误处于 HARD 状态，Nagios 也不会尝试发出通知。要使通知在 Nagios 中正常工作，仅定义好联系人、联系人组和通知命令是不够的。如果您想在发生错误时发送通知，您必须配置每个服务和主机，当然还要配置向哪些联系人和/或联系人组发送此通知。例如，这是一个已配置并正常工作的通知服务定义：

define service {
    name                                  generic-service
    first_notification_delay              0
    notification_interval                 0
    notification_options                  w,u,c,r
    notifications_enabled                 1
    check_period                          24x7
    notification_period                   24x7
    contact_groups                        admins
}

在上述定义中，notification_enabled设置为 1（真），并指定要向其发送通知的联系人组。此外，我们定义了要发送哪种通知 - w（警告）、u（未知）、c（严重）和 r（恢复）。

上述定义被我的所有服务用作模板：

use generic-service

存在于我的所有服务定义中。这样，如果我需要更改通知选项，我只需更改定义generic-service。就您而言，您的配置显示您的服务正在使用名为的模板generic-service。我建议检查其定义，以查看通知是否像我上面给出的示例一样配置。其定义可以位于名为的文件中，services-templates.cfg但这可能会有所不同。

Question 2

感谢 Benoit 的回答。经过一段时间的思考，我想补充几点：

如果您查看缓存文件（这是所有配置的计算结果），则很容易知道您对所有这些模板和覆盖的立场：/usr/local/nagios/var/objects.cache

去过那里之后，我突然意识到……我的服务设置为仅在工作时间发送通知，但结果有点不对劲，因为我与服务器处于不同的时区。将其更改为 24x7 后，一切就变得顺畅了。

我希望这会对某些人有所帮助。花了几个小时才弄清楚这一切。

干杯!

Answer

感谢 Benoit 的回答。经过一段时间的思考，我想补充几点：

如果您查看缓存文件（这是所有配置的计算结果），则很容易知道您对所有这些模板和覆盖的立场：/usr/local/nagios/var/objects.cache

去过那里之后，我突然意识到……我的服务设置为仅在工作时间发送通知，但结果有点不对劲，因为我与服务器处于不同的时区。将其更改为 24x7 后，一切就变得顺畅了。

我希望这会对某些人有所帮助。花了几个小时才弄清楚这一切。

干杯!

Question 3

最有用的信息是交叉检查内容以/usr/local/nagios/var/objects.cache验证所有.cfg 的所有继承。

这也解决了我的问题。

Answer

最有用的信息是交叉检查内容以/usr/local/nagios/var/objects.cache验证所有.cfg 的所有继承。

这也解决了我的问题。

我没有使用 Nagios Core 4 收到邮件通知

命令配置文件

联系人.cfg：

nagios.log：

邮件日志

答案1

答案2

答案3

相关内容