可能重复:
您使用什么工具来监控您的服务器?
我正在寻找一个服务器场的监控解决方案。它应该解决以下问题:
检测主机是否发生故障或处于活动状态,如果可能,检测主机是否真的发生故障或是否由于网络故障而无法访问
如果主机出现故障,则运行脚本(该脚本不执行任何操作,只是在场中的其他主机上运行一些命令)
答案1
虽然听起来你想要做的事情会被 Nagios 所涵盖,正如 SvenW 提到的,考虑到你的标签包括“高可用性”和“集群”,你可能需要研究一下起搏器,这是一个功能齐全且极其复杂的集群和高可用性解决方案,它几乎可以做任何事情(一旦你弄清楚如何做)。
答案2
纳吉奥斯做你想做的事。网络故障可以由依赖系统处理,其他主机上的脚本可以由事件基础设施处理。