因此,我们在 CentOS 上运行 Groundworks(与 Nagios 一起)来监控我们的各种服务器和进程。我已将其设置为在事情达到“警告”或“严重”状态时自动发送电子邮件和短信。通常情况下,这很完美。但是,我们在该服务器上遇到了两次 Postfix 问题,Postfix 决定停止发送电子邮件。最近一次持续了 4 天,因为我们都没有注意到。
这就引出了我一个重要的问题:我应该如何监控我的监控服务器?
答案1
当然是使用第二台监控服务器。第二台服务器可以简单得多,因为它只需要监控第一台服务器。当然,它应该依次由主监控系统进行监控。
如果您的团队属于一个拥有独立 IT 基础设施的大型组织,您可能能够安排另一个团队的监控服务来监视您的团队。
您还可以确保服务器每天发送“没问题”消息,并养成查找该消息的习惯。(当然,这只有在您还没有被日常消息淹没时才有效。)
答案2
显然你的 postfix 也应该受到监控,但那是另一个话题;)
我用适用于 Firefox 的 Nagios 检查器插件,它始终在我经常使用的任何计算机上的状态栏中运行。
此外,我在外部主机上有一个自定义脚本,它可以 ping nagios 主机,如果 nagios 主机没有响应 ping,它就会发送短信。
到目前为止 (5 年多) 一切运行正常 (敲木头)。
答案3
对于监控服务器监控(在我们的例子中是 nagios),Pingdom 或 alertfox 的免费或基本计划效果很好。
答案4
如果您的监控服务器可以通过互联网访问,您应该让外部提供商(例如 websitepulse 等)对其进行监控。