为动态扩展环境选择监控系统:Nagios v. Zabbix

为动态扩展环境选择监控系统:Nagios v. Zabbix

在云中操作并自动扩展设备时,会遇到某些监控问题。有时我们可能要监控 10 个设备,有时则要监控 100 个设备。设备会根据需求进行扩展和缩减。

目前,我认为最好的解决方案是选择一种通过调用 API 实例化目标的监控解决方案。但这真的是最好的吗?我喜欢动态发现的想法,但这在云中也是一个问题,因为目标并不都在同一个子网中。

哪些监控解决方案可以实现这样的扩展环境?Zabbix 目前有草稿 API但我无法为 Nagios 提供类似的 API。Nagios 有类似的 API 吗?

除了 Nagios 和 Zabbix 之外,还有其他建议吗?

答案1

法姆维尔该公司声称每周都会增加数百台服务器,使用木偶纳吉奥斯, 和穆宁处理可扩展的监控系统。他们可能使用 Puppet 事实来填充 Nagios 配置文件或设置国家可再生能源计划由于服务器数量如此之多,像 Puppet 这样的配置管理工具实际上是必需的。

通过搜索“puppet nagios”找到几个例子:

http://blog.gurski.org/index.php/2010/01/28/automatic-monitoring-with-puppet-and-nagios/

http://projects.puppetlabs.com/projects/puppet/wiki/Nagios_Patterns

https://github.com/DavidS/puppet-nagios

答案2

使用 Zabbix。他们即将发布的 2.0 版本有很多新功能。当前版本 1.8 具有自动注册功能。

新功能文档讨论了此功能:

4.2.2 活跃代理的自动注册

Zabbix 1.8 中的全新功能是允许主动 Zabbix 代理自动注册,之后服务器可以开始监控它们。这样就可以添加新的主机进行监控,而无需为每个主机进行任何手动服务器配置。

该功能对于自动监控新的云节点可能非常方便。一旦您在云中有了新节点,Zabbix 就会自动开始收集主机的性能和可用性数据。

答案3

没有建议,但你的逻辑是正确的:在动态环境中,就像你描述的一样,当主机启动时,它需要向任何需要知道它存在的东西(例如监控系统)注册,而当它关闭时,它需要取消注册那些需要知道它正在消失的东西。

我想问的问题是,您是否需要监控您的“主力”服务器?如果它们是计算节点或类似节点,并且您知道它们的配置稳定,并且在启动时“正常工作”,那么监控云本身(正在运行的实例数)可能与跟踪单个机器一样好,前提是您的云提供商允许您轻松访问此类统计数据。

答案4

对于 zabbix api,有一个命令行工具 zabcon (http://trac.red-tux.net/wiki/zbx_api/interactive)。它尚未完全发挥作用,但它应该支持一些基本的主机和项目操作 - 也许您可以从中开始。

相关内容