当某些计划作业失败时，您如何监控和应对？- 一般问题

Question 1

Nagios 进行被动检查，然后包装您的计划作业，以向您的 nagios 服务器发送一条消息 (send_nsca)，指示作业完成时发生的情况。如果作业出错，nagios 将发出警报。

与您看到的问题更相关的是，您还可以设置 nagios 来在它长时间没有收到您的 cron 作业的消息时发出警报，这样您就可以发现那些悄无声息地失败的作业。

所有设置均免费且相当简单。

Answer

Nagios 进行被动检查，然后包装您的计划作业，以向您的 nagios 服务器发送一条消息 (send_nsca)，指示作业完成时发生的情况。如果作业出错，nagios 将发出警报。

与您看到的问题更相关的是，您还可以设置 nagios 来在它长时间没有收到您的 cron 作业的消息时发出警报，这样您就可以发现那些悄无声息地失败的作业。

所有设置均免费且相当简单。

Question 2

您可以将 crontab 中的命令条目更改为类似

/usr/local/bin/critical_job || /usr/local/bin/notify “关键作业失败”

然后当“citical_job”以非零值退出时，“notify”将运行。最好我尽力在作业本身中捕获它并在那里处理它。

Answer

您可以将 crontab 中的命令条目更改为类似

/usr/local/bin/critical_job || /usr/local/bin/notify “关键作业失败”

然后当“citical_job”以非零值退出时，“notify”将运行。最好我尽力在作业本身中捕获它并在那里处理它。

Question 3

如果您认为更大规模的监控解决方案不适合您的情况，您可以考虑将管理员电子邮件从服务器转发到某人的实际电子邮件帐户。您可以通过将如下行添加到/etc/别名：

 root: [email protected]

在哪里[电子邮件保护]是某人的真实电子邮件地址。

请注意，您的服务器需要一个正常运行的 MTA 来发送电子邮件，并且如果有任何情况阻止系统发送电子邮件（例如网络丢失/没有空间/var），则不会有人收到通知。

Answer

如果您认为更大规模的监控解决方案不适合您的情况，您可以考虑将管理员电子邮件从服务器转发到某人的实际电子邮件帐户。您可以通过将如下行添加到/etc/别名：

 root: [email protected]

在哪里[电子邮件保护]是某人的真实电子邮件地址。

请注意，您的服务器需要一个正常运行的 MTA 来发送电子邮件，并且如果有任何情况阻止系统发送电子邮件（例如网络丢失/没有空间/var），则不会有人收到通知。

Question 4

托管死人开关样式服务非常适合这里。简而言之：您设置 cron 作业，以便在 cron 作业完成之前向托管服务发出 HTTP 请求。只要服务没有及时收到 cron 作业的回复，它就会向您发送警报。

一些众所周知的选项：

（全面披露 – 我是 Healthchecks.io 的创始人。）

Answer

托管死人开关样式服务非常适合这里。简而言之：您设置 cron 作业，以便在 cron 作业完成之前向托管服务发出 HTTP 请求。只要服务没有及时收到 cron 作业的回复，它就会向您发送警报。

一些众所周知的选项：

（全面披露 – 我是 Healthchecks.io 的创始人。）

相关内容