最近继承了一个被忽视的集群:我正在尝试对其进行一些健全性检查。在节点 X 上运行基准测试,然后运行“top”,结果显示 mpi 进程的 CPU 使用率很高(正如预期的那样),但在节点 Y 上,top 显示使用率为 0%。
这是正常的吗?是否有其他实用程序可以正确监视节点上的系统资源?
答案1
这不正常。我继承的“集群”实际上是一堆通过 Infiniband 交换机连接的盒子,没有任何负载共享,也就是说,根本不是一个集群。
监视集群负载的一个有用实用程序是神经节。配置需要一点时间,但如果您还没有使用其他集群管理工具(如 Conga),它会非常有用。