我遇到过许多可扩展到 1000 个节点的分布式系统监控工具,但似乎没有一个能够展示甚至声称能够处理 10 000 个甚至 100 000 个节点。从理论上讲,这应该可以通过分层集群网络架构来实现。有没有人遇到过声称如此的监控系统,或者有白皮书/学术论文讨论理论实现?
答案1
假设这不是编造的http://users.nagios.org/directory/Yahoo,-Inc/details据说雅虎将它用于 100,000 台机器,但部署了 2000 个实例。我假设德纳克斯适合实例的“管理”。
也刚刚发现梅林它似乎能够在约 6 秒内(而不是 1 小时)监控/检查 153000 个主机
答案2
我过去曾使用过两种工具。
- 扎比克斯是一款免费开源软件。其网站声称已通过 10,000 个节点的测试。
- NetIQ 安全管理器(或者NetIQ 应用程序管理器) 是一款封闭且昂贵的软件。它很容易扩展,但您需要多台服务器(主要是数据库和收集器)。