我正在寻找以下开源解决方案:
我有需要连续运行的作业。这些作业是应用程序或脚本。如果它们失败,则需要重新启动。如果它们失败,比如连续 10 次或在某个时间段内失败,比如 1 小时,则需要取消它们并向中央存储库发出通知。如果作业开始升温(使用 CPU 或内存等),则应发出警告,如果它们变得太热,则应终止它们。可以选择将作业安排为仅在特定时间运行。
我知道肯定有开源、独立于平台、高级语言(即用 Python 等实现)的全方位服务、复杂的解决方案,但我甚至不确定要寻找什么或这样的系统叫什么。我在 Google 上搜索了很多,但还没有找到可以做到这一切的东西。
答案1
导师(用 Python 编写)可以满足您的大部分需求。可以使用 XML-RPC API 扩展其他功能。