监控电子邮件服务,并发出故障通知

监控电子邮件服务,并发出故障通知

早上好,

我目前正在寻找一种解决方案,使我们的组织能够通过电子邮件系统跟踪故障(然后向 IT 管理员发送通知,也许通过短信提供全天候支持)。

我们的最终目标是确定电子邮件(作为一项完整服务)何时无法正常运行。这可能是我们的 Exchange (2007) 服务器出现故障、防火墙或垃圾邮件过滤器出现故障,或者是另一个“未知”故障点。解决方案的关键部分是可靠地通知 IT 人员。

我们认识到找到一个完全万无一失的解决方案可能会很困难,但有谁能给我们一些建议来引导我们朝着正确的方向前进呢?

谢谢

答案1

正如 Ig 所言,Nagios 可能部分的解决方案。

开箱即用,它可以做很多事情,比如测量 CPU、开放端口、系统对 ping 的响应。但重要的是它是一个调度和报告工具 - 向其中添加实际测量系统指标的新程序是微不足道的。还有很多其他产品可以做这样的事情,但 Nagios 是更好的免费产品之一(比许多商业产品都要好)。如果你看看商业产品,你会花上数周时间仔细研究所有的营销宣传和附加功能,然后才能发现是否有可能集成你自己的指标,更不用说如何去做了。当然,BMC Patrol(新版本)和 Oracle 的 Grid Control 都可以支持这一点 - 但需要付出更多的努力。

如果您想测试端到端功能,那么您需要做的就是设置一个计划作业,通过系统(在 Nagios 中或使用传统调度程序)发送一封电子邮件,比如每 5 分钟一次,然后在 Nagios 中设置检查以定期检查系统发出的最新电子邮件 - 如果没有新电子邮件(或最新电子邮件已超过 6 分钟),那么您的脚本应该返回错误状态。

这种脚本在 Unix 系统上设置起来很简单,但在 MSWindows 机器上设置起来会更困难(而且昂贵得多)——除非你非常讨厌 Unix,否则我建议你在备用 PC 上启动 Linux 或 BSD 来运行 Nagios 和探测器——但 Nagios 可用于 MS Windows。

听起来你的脚本在做所有艰苦的工作?其实不然,Nagios 将管理升级,可以配置为根据一天中的时间向不同的人发送警报,在发生警报时触发自动操作(例如重新启动服务器),并提供大量有关为什么服务可能会失败(例如电子邮件服务器的磁盘已满)以及许多其他问题...呃,利用现有的技能组合来整合问题解决策略?

C。

答案2

纳吉奥斯或类似工具

答案3

我赞同 symcbean 的提议。

设置一项任务,定期向某个测试邮箱(理想情况下是组织外部的,可能是某个地方的免费邮件帐户)发送电子邮件,然后让 Nagios 检查它。

您可以检查邮件是否从您这边发出,或者是否到达(例如通过 POP3 提取邮件)。后者显然是一种更全面的测试,但如果免费邮件服务商出现故障,则有失败的风险,因此您可能需要使用两到三种免费邮件服务。

如果测试失败,Nagios 会通过各种方式提醒您。您可以发送短信,方法是购买连接到 Nagios 服务器并直接通过 GSM 发送的硬件设备,也可以通过 Web 服务发送。后者可能更简单、更便宜,但如果您的整个网络连接中断,则将失败。

只要记住不要让 Nagios 邮寄警报 ;-)。

相关内容