监控数百台主机的基本参数

监控数百台主机的基本参数

我们在 EC2 和 Google 计算引擎上有数百个 Linux 虚拟机。我们希望以最简单、最轻便的方式监控磁盘可用空间和内存消耗等基本信息。预计,随着负载变化等,虚拟机会频繁出现和消失。

目前,我们使用简单的脚本通过 SNMP 提取此类信息。我们不需要花哨的特定于应用程序的监控,因为它已经通过特定于应用程序的方式提供了。

我们尝试了 Zenoss,发现它很难使用,而且缺乏文档。

我们考虑了 Nagios 及其分支。我们考虑过 Sensu(但我的老板不喜欢 RabbitMQ)和 Ganglia,但对于我们最基本的需求来说,它们似乎都有点太复杂了。

对于我们拥有的主机数量来说,像 Circonus 这样的 SaaS 解决方案会太昂贵。

我是否遗漏了一些明显的简单的解决方案在这里?你会推荐什么[反对]?

答案1

如果您更多地关注开源方向,打开网管可能适合您的需求。我自己没有使用过它,但我听到了一些关于它的好消息(尤其是从那些不喜欢 Nagios 的人那里)。据我了解,它也是基于 SNMP 的。

答案2

我会认为收集的可能适合您的需求,尤其是在 EC2 中,因为您可以将其添加到基础 AMI,并且它将向(一个或多个)中央收集器发送数据。

这样,新实例立即开始向您发送数据,并且您不必总是通过添加/删除来调整监控系统。

使用石墨收集数据,以及一个简单的 nagios 设置或 cron 作业脚本来检查是否有超出“正常”的值。

以此为基础,您可以轻松成长。

答案3

我个人最喜欢的是WhatsUp 黄金高级版

成本低,基于 SNMP,具有非常好的(历史)绘图能力。鼠标悬停时,它将显示瞬间的实际读数。

唯一的缺点是它需要 Windows 服务器和 MS-SQL 数据库(它带有免费的轻型版本)。

对于像您这样的小型环境来说,这是一个商业解决方案。

相关内容