哪些服务器监控工具可以扩展到 10K-100K 个节点?

哪些服务器监控工具可以扩展到 10K-100K 个节点?

我遇到过许多可扩展到 1000 个节点的分布式系统监控工具,但似乎没有一个能够展示甚至声称能够处理 10 000 个甚至 100 000 个节点。从理论上讲,这应该可以通过分层集群网络架构来实现。有没有人遇到过声称如此的监控系统,或者有白皮书/学术论文讨论理论实现?

答案1

假设这不是编造的http://users.nagios.org/directory/Yahoo,-Inc/details据说雅虎将它用于 100,000 台机器,但部署了 2000 个实例。我假设德纳克斯适合实例的“管理”。

也刚刚发现梅林它似乎能够在约 6 秒内(而不是 1 小时)监控/检查 153000 个主机

答案2

我过去曾使用过两种工具。

答案3

使用单个主机可以监控多少台主机在很大程度上取决于您正在运行的检查类型、每次检查需要多长时间以及队列是否可以同时运行。

我见过吸烟针对大量主机运行。简单设置时使用 nagios 也一样。我姐妹公司的同事让 nagios 针对几百台机器运行,每台主机执行 10-20 次检查,另外几百台路由器执行一系列 snmp 检查,然后一些其他“网络”设备执行 snmp 和自定义脚本的混合监控。总共对机器进行了超过 10k 次检查。只有在 snmp 检查开始滞后时才会出现问题。

另请查看芝诺斯。有几个版本,而且确实可以扩展。

相关内容