可扩展地监控电子邮件警报

可扩展地监控电子邮件警报

有人知道可扩展地监控电子邮件警报的方法吗?

对于我的许多现场服务,我都要求他们在关键任务成功(和失败)时给我发送电子邮件。我之所以在成功时发送电子邮件,是因为有时失败的性质使得服务无法通过电子邮件发送失败警报。

不幸的是,这无法扩展,我现在收到太多警报,我并没有真正监控它们,但我又无法承受失败警报,因为这在过去太不可靠了。

我理想中的是一种云服务(或邮箱),类似于 Pingdom,我也可以发送/转发这些警报,当收到失败警报或缺少成功警报时,它会通过电子邮件/短信发送给我。

有人有主意吗?

答案1

您建议的是有效地重新实施您的监控系统(通过将当前系统的警报输入到另一个监控系统中,该系统足够智能,如果不能不断地确保一切正常,它就能知道出了问题)。

这几乎肯定不是你所需要的。你需要的是现场和非现场监控相结合,这将可靠地当出现故障时向您发送故障警报(通常来自内部系统,如果由于某种原因内部系统出现故障,则来自外部系统)。


请记住以下监控系统公理:

没有理由在成功时发出警报。

成功时发出警报是监控系统中最常见的业余错误配置。
监控系统应该仅有的提醒您注意以下事项要求采取行动

从定义上来说,成功不是需要采取行动的事件,因此不应生成警报。从
定义上来说,不成功就是“失败”,因此应生成可操作的失败警报。

发送“一切正常”状态消息最终会训练人们忽略来自监控系统的消息(因为大多数时候不需要采取任何行动)。您希望监控警报是令人震惊的事件,可以激发人们采取行动,而不是出于肌肉记忆而从收件箱中删除的常规麻烦。

相关内容