当我们安排系统维护时,或者系统出现故障或运行缓慢时,我们会向客户发送通知。我们使用多种沟通方式(电子邮件、网站状态消息、推特、博客条目、电话)。这种方法的问题在于,这些服务要么由我们托管,要么需要我们的互联网连接才能使用。
上周我们遇到了一次重大故障。我不清楚所有细节,但简而言之,T1 出现故障,故障转移失败。电子邮件、电话、互联网、FTP 均瘫痪。
我是一名程序员,我建议构建一个实用程序,通过简单的 Web 界面自动执行大多数通知任务。如果我们将其托管在内部并且发生故障,那么这样做就没什么用。我们需要将通知服务移到异地某个地方。
我这样做的担心是,如果系统通知来自另一个域,人们将会摸不着头脑;有些人甚至可能会忽略警报。
有什么建议么?
答案1
您是否可以将通知软件托管在另一个位置/另一个 Internet 连接上的另一台主机上,但将其解析到当前域的子域?例如,如果您当前在 example.com 上进行监控,则可以将您的服务移动到 monitor.example.com 并从那里开始发送通知。
至于实用性,你可以看看纳吉奥斯- 这是一套相当完整的监控工具,可以监控 Web 服务、FTP、电子邮件等。您可以单独托管它,只需配置所有主要服务以将状态发送到 Nagios 主机,然后配置 Nagios 以在一段时间内没有收到主站点的消息或主站点开始出现意外行为时发送警报。