我们使用 ks-soft 的 Advanced Hostmonitor 软件包来监控我们网络上的大约 2000 个项目。我们认为它很棒,支持它的家伙很棒,产品快速、稳定且成熟,但我觉得随着我们公司的发展,它开始在与我们的后台管理系统集成方面出现一些摩擦点。
我们希望实现的一件事是能够通过 API 向我们使用的任何监控工具添加新测试。例如,当服务器订单来自我们的零售界面时,服务器会自动构建,作为自动构建过程的一部分,我们希望自动向网络监控系统添加新测试。
Hostmonitor 通过一项名为 HM Script 的功能对此提供了一些支持,但我们开始遇到一些障碍 -
- 我们无法添加新的操作员/用户
- 我们无法定义新的“行动概况”——这些是测试进展好或坏时要采取的行动。
我们喜欢 hostmonitor 的原因是操作配置文件。例如,如果 Windows IIS 框出现问题,我们针对错误测试的操作配置文件会执行如下操作:
- 再次检查主机(一次)
- 再等待 30 秒,然后再次测试
- 尝试重新启动远程计算机上的应用程序池(最多两次)
- 向运营部门发送有关重启失败的电子邮件
- 尝试在远程计算机上重新启动 IIS(最多四次)
- 页面值班管理员(最多 5 次 - 值班管理员 ACKS 警报后停止)
- 页面备份值班管理员(5 次 - 值班管理员 ACKS 警报后停止)
我开始研究其他网络监控工具并寻找:
- 一个全面的 API,能够添加/删除/控制测试/测试“操作配置文件”/操作符(不仅仅是插件,我们需要控制和管理界面)
- 能够拥有非常详细的行动/升级配置文件(并通过 API 定义这些配置文件)
我研究过 Nagios 和 Icinga,但似乎无法从它们的文档中得知我们是否可以拥有这些功能,或者如果可以,实现/定制需要涉及多少工作。
有人能提供任何建议、指导或经验吗?
答案1
答案2
根据您的环境,您可能需要寻找一种甚至不使用探测器而只分析流量的解决方案,然后根据诸如看到 500 级错误或流量持续下降等情况设置警报。例如,看看 ExtraHop 提供的内容:http://www.extrahop.com/
答案3
如果您正在寻找外部监控,您可能需要查看 WatchMouse。他们的 API 提供了您提到的功能(如果我理解正确的话):apidoc.watchmouse.com
欢呼马克
答案4
Opsview 有一个 API:http://docs.opsview.com/doku.php?id=opsview3.0:api