单机上的作业排队

单机上的作业排队

我有一台闪亮的新服务器用于运行模拟,配有一对 Tesla GPU 和 32 个内核,运行 CentOS 7.2。我希望多个用户能够向服务器提交作业,这些作业在前一个完成时排队并运行,最好具有某种优先级系统和时间限制,例如 PBS/TORQUE,但适用于单台机器而不是一台机器簇。我知道我可以为单台机器安装和配置 TORQUE,但这似乎有点矫枉过正 - 理论上,调度程序应该只在作业完成或超时运行时运行。我可能可以自制一组脚本,但我想知道解决方案是否已经存在?

答案1

考虑 TaskSpooler——http://viric.name/soft/ts/

它似乎像“at”一样工作,但将所有内容放入同一个顺序队列中。

答案2

HTCondor是一款对单机安装有极好的支持的集群软件。他们甚至提供了minicondor专门针对单机设置的 Docker 镜像:https://htcondor.readthedocs.io/en/latest/getting-htcondor/for-docker.html 但你也可以在没有 Docker 的情况下安装它。

来自官方网站:

HTCondor 可用于从小到大的各种网络规模。在单台机器上,HTCondor 可以充当监控工具,当用户将机器用于其他目的时暂停作业,并在机器重新启动时重新启动作业。

HTCondor 部分由 Red Hat 开发,因此它对 CentOS 等基于 RPM 的发行版有很好的支持。

相关内容