服务按计划重新启动（安全，如果失败，则强制）几个不同的进程

Question

我首选的解决方案是 cron 驱动的 Python 脚本，该脚本主要负责在受监控进程未运行时启动它们。它可以自己获取并存储子进程的 PID（如果需要，可能还有其他元数据，例如上次 OK 迭代时间戳）以供以后使用，或者仅监视子进程自己创建的此类文件。

在第一次迭代中，我会利用相对可预测的故障模式/时间线，并修改相应的子进程，使其在指定的迭代次数或总运行时间后干净地退出。监控进程只会重新启动它们。

将来，可以增强监控脚本，以便对正在运行的监控进程进行更详细的健全性分析，并在必要时终止它们。例如，通过检查我上面提到的最后一次 OK 迭代时间戳。这将解决不太可预测的故障模式。

为了实际杀死更复杂的进程结构，您可能需要查看我对这个问题的回答：https://stackoverflow.com/questions/30780487/python-script-to-monitor-process-and-sub-processes。

Answer 1

我首选的解决方案是 cron 驱动的 Python 脚本，该脚本主要负责在受监控进程未运行时启动它们。它可以自己获取并存储子进程的 PID（如果需要，可能还有其他元数据，例如上次 OK 迭代时间戳）以供以后使用，或者仅监视子进程自己创建的此类文件。

在第一次迭代中，我会利用相对可预测的故障模式/时间线，并修改相应的子进程，使其在指定的迭代次数或总运行时间后干净地退出。监控进程只会重新启动它们。

将来，可以增强监控脚本，以便对正在运行的监控进程进行更详细的健全性分析，并在必要时终止它们。例如，通过检查我上面提到的最后一次 OK 迭代时间戳。这将解决不太可预测的故障模式。

为了实际杀死更复杂的进程结构，您可能需要查看我对这个问题的回答：https://stackoverflow.com/questions/30780487/python-script-to-monitor-process-and-sub-processes。

相关内容