大佬们是如何监控他们的服务器的?

大佬们是如何监控他们的服务器的?

我想知道网络规模人员使用什么软件来监控服务器场中的 n 个服务器阵列。

facebook、twitter、digg 使用什么?google 又是如何做的?

我正在寻找一种解决方案来满足我们自己的监控需求。我们的服务器位于云端、AppEngine 和 EC2 中。我们希望监控“应用程序”(由许多小型服务构建而成),这意味着最终结果应该是一个可以监控响应时间(+alivenss 和 co.)和应用程序有效性的系统:如果我执行 X,那么 Y 应该会发生,然后在 2 小时后验证 Z 是否已处理并且 T 是否已附加到正确的日志中...

理想的解决方案是一个我可以部署单元测试的系统,我在开发时使用相同的单元测试来测试软件。

非常欢迎建议、指点和评论——我正在寻找解决这个问题的方向。

谢谢,马克西姆。

答案1

我看了不久前。这是“Facebook 运营的一天”。他们使用 cfengine2(部署)、nagios(监控)、ganglia(监控和趋势)以及许多内部工具。有趣的是,我们使用的一些工具被如此大规模地使用(+60.000 台服务器)

相关内容