监控计算机网格的最佳方法是什么?

监控计算机网格的最佳方法是什么?

我已经在 10 个节点和一个虚拟主机上安装了 Sun Grid Engine。

现在我必须在投入生产之前监控所有资源,但我不知道哪种方法最好。我试过使用 xml-qstat,但它似乎不稳定。

有什么提示或建议吗?

有人有这方面的经验吗?

谢谢。

答案1

你可以使用神经节我们使用 Ganglia 来处理数千个节点荷兰计算中心在大多数情况下,它似乎运行得相当好,特别是当你在寻找历史图表时。Nagios 用于主动监控。

答案2

如果我理解正确的话你需要监视器一堆网格服务器。你打算采用哪种监控方式?也许像纳吉奥斯通过一些额外的脚本可以满足您的需求吗?

有一个例子在这里

答案3

仅供参考,还有 Munin (http://munin-monitoring.org/) 是非常好的。

答案4

听起来你对指标比对正常运行时间或可用性更感兴趣。Circonus (http://circonus.com/) 非常适合这里。您可以关联几乎任何指标,这些指标可以通过 Resmon XML DTD 导入。

相关内容