监控数百台主机的基本参数

2024-5-17 • tag-icon

监控数百台主机的基本参数

我们在 EC2 和 Google 计算引擎上有数百个 Linux 虚拟机。我们希望以最简单、最轻便的方式监控磁盘可用空间和内存消耗等基本信息。预计，随着负载变化等，虚拟机会频繁出现和消失。

目前，我们使用简单的脚本通过 SNMP 提取此类信息。我们不需要花哨的特定于应用程序的监控，因为它已经通过特定于应用程序的方式提供了。

我们尝试了 Zenoss，发现它很难使用，而且缺乏文档。

我们考虑了 Nagios 及其分支。我们考虑过 Sensu（但我的老板不喜欢 RabbitMQ）和 Ganglia，但对于我们最基本的需求来说，它们似乎都有点太复杂了。

对于我们拥有的主机数量来说，像 Circonus 这样的 SaaS 解决方案会太昂贵。

我是否遗漏了一些明显的简单的解决方案在这里？你会推荐什么[反对]？

答案1

如果您更多地关注开源方向，打开网管可能适合您的需求。我自己没有使用过它，但我听到了一些关于它的好消息（尤其是从那些不喜欢 Nagios 的人那里）。据我了解，它也是基于 SNMP 的。

答案2

我会认为收集的可能适合您的需求，尤其是在 EC2 中，因为您可以将其添加到基础 AMI，并且它将向（一个或多个）中央收集器发送数据。

这样，新实例立即开始向您发送数据，并且您不必总是通过添加/删除来调整监控系统。

使用石墨收集数据，以及一个简单的 nagios 设置或 cron 作业脚本来检查是否有超出“正常”的值。

以此为基础，您可以轻松成长。

答案3

我个人最喜欢的是WhatsUp 黄金高级版。

成本低，基于 SNMP，具有非常好的（历史）绘图能力。鼠标悬停时，它将显示瞬间的实际读数。

唯一的缺点是它需要 Windows 服务器和 MS-SQL 数据库（它带有免费的轻型版本）。

对于像您这样的小型环境来说，这是一个商业解决方案。

相关内容