如何升级 Slurm?

如何升级 Slurm?

我被要求升级我们的 Slurm Workload Manager 安装。我在 Debian 7.0 wheezy 集群(1 个主节点 + 8 个节点)上安装了 slurm 2.3.4。我还没有安装它,所以我有点困惑如何执行此操作以及如何在不破坏任何东西的情况下继续操作。(我真的无法备份数据,因为有太多 TB 的数据,无法将其复制到其他任何地方。)

我原本想至少升级到 Jessie (Debian 8),但 Slurm 呢?我仔细阅读了升级部分 (https://slurm.schedmd.com/quickstart_admin.html) 的文档,其中指出升级必须逐步进行,而不是从 2.3.4 跳到 17。

我仍然不清楚如何做到这一点。如果要求升级一个你一无所知的集群,你会怎么做?你会检查什么?你会选择哪个版本的操作系统和 slurm?你会备份什么?你会怎么做?

任何信息都是宝贵的!谢谢

答案1

我已经对 Torque/Moab 进行了类似的升级,但没有对 Slurm 进行过类似的升级,但我可以提供一些建议。如果您可以获得测试系统或 VM 来验证升级后一切是否正常工作,那就太理想了。否则,这就是文档中提到的棘手部分:

Slurm 允许在主版本号相差不超过两个的任意两个版本之间进行升级(例如从 15.08.x 或 16.05.x 升级到 17.02.x),而不会丢失作业或其他状态信息。旧版本的状态信息将无法识别并被丢弃,从而导致所有正在运行和待处理的作业丢失。

这意味着,如果您在升级后有正在运行和待处理的作业,它们将不复存在。因此,用户需要再次提交作业,这意味着您将失去优先级和其他与作业相关的元数据和状态信息。

Torque/Moab 有一个作业文件夹,通常可以复制并迁移到新版本。有类似的东西吗?

基本上,如果您没有测试机器,那么在这种情况下,您需要安排停机时间并通知用户队列中的所有当前作业都将丢失,这意味着他们必须重新提交所有内容。如果这不是一个选择,那么您需要找到一种方法将作业迁移到升级后的系统。

相关内容