在可用机器上重新启动失败的进程

在可用机器上重新启动失败的进程

我正在开发一个系统,该系统有大约 50 个进程,分布在大约 4 台不同的机器上。该架构允许任何进程在任何机器上运行,但只允许每个进程在一台机器上运行。让同一个进程在同一台机器上运行两次或在不同机器上运行两次会导致大问题。

有没有现成的软件可以监控机器上的进程,并在它们死机时重新启动它们?如果一台机器死机,则在其中一台可用机器上重新启动进程?并确保我们永远不会在整个系统中多次运行同一个进程?

答案1

产品推荐是题外话,但你要找的词是集群管理器高可用性集群

相关内容