我正在寻找是否存在适合我所需要交付内容的“最佳解决方案”。
我所在的 IT 公司与一家本地企业签订了合同。虽然我们是长期合作伙伴,但最近我们与这家企业签署了一份长期、更新的协议。他们想要的东西之一就是停机时间跟踪。
有很多可用于停机时间跟踪的选项......我想向专家询问我的最佳选项是什么。
我想在__级别跟踪停机时间:
- 服务器 — 什么时候宕机的。原因是什么。宕机了多久。
- 连接 - 跟踪 ISP、电话、服务器到服务器的连接......服务器运行良好,但由于有人撞到了连接两个站点的线路杆而导致“停机”。
- 应用程序 - 服务器正常。连接正常。但应用程序停止响应。我们的服务器上有 1 到多个应用程序。
- 还想跟踪停机期间严重/极端的延迟。这包括以上所有内容。服务器/连接/应用程序正在运行...但页面加载...或文档打印需要 5 分钟。
我们想要跟踪的一些应用程序是自行开发的,因此可以添加测试部件/程序,以跟踪应用程序级别的停机时间。一些应用程序是基于 Web 的,因此可以使用简单的定期网页加载来跟踪停机时间……但我们有许多封闭的应用程序,编写测试会很棘手,甚至根本不可能。
所以我的想法是,不幸的是,我需要一个可以“简单”地添加或编辑停机时间统计数据的系统。
鉴于不同的操作系统(Windows、Unix、AIX、DB2)、连接和应用程序……哪个平台最好用来以尽可能自动化的方式跟踪这些信息,但仍可在需要时轻松手动编辑……并提供适当的报告选项。
我现在正在看 Zabbix...只是想知道它是否正好在我想要/需要的正确领域。
答案1
您还可以考虑使用在屏幕上使用图像识别的探测器来扩展 Nagios、Zabbix、SiteScope(等)......也许是 iMacros 或 eggplant?
答案2
我个人喜欢用 Nagios 进行所有监控。它内置 SNMP 支持,可以使用您自己的脚本和探测命令进行扩展。我使用它进行网络监控、应用程序监控(应用程序有一个应该响应的 TCP 端口)和一些自定义队列监控(邮件队列大小等),我通过 SNMP 在目标机器上公开这些队列