Ubuntu 22.04 上的 Slurm cgroups 插件故障排除

Ubuntu 22.04 上的 Slurm cgroups 插件故障排除

我面临着一个具有挑战性的问题Slurm cgroups 插件在运行 Ubuntu 22.04 的系统上。我们对 Slurm 还比较陌生,并开始使用它来更好地管理复杂计算任务中的资源。然而,我们在 cgroups 插件方面遇到了障碍,特别是在我们的 Ubuntu 22.04 节点上。

这是我们正在经历的:

  • 最初在我们的节点上尝试了 cgroups V2 插件(两个使用 Ubuntu 22.04,一个使用 Ubuntu 18.04),但没有成功。

  • 切换到 cgroups V1 插件,该插件允许在 Ubuntu 18.04 节点上执行作业,但在 22.04 节点上导致错误。

  • 这些错误与目录相关/sys/fs/cgroup,包括进入作业尝试后的节点idle和状态。drain

我们尝试修改内核参数但没有成功。我正在寻求有关如何解决 Ubuntu 22.04 上的这些 cgroups 插件错误的见解。

如下是开始出现错误的日志:

[2023-10-12T14:50:29.479] [36.batch] error: unable to open '/sys/fs/cgroup/cpuset//tasks' for reading : No such file or directory
[2023-10-12T14:50:29.511] [36.batch] error: unable to mount cpuset cgroup namespace: Device or resource busy
[2023-10-12T14:50:29.511] [36.batch] error: unable to create cpuset cgroup namespace
[2023-10-12T14:50:29.511] [36.batch] error: unable to open '/sys/fs/cgroup/devices//tasks' for reading : No such file or directory
[2023-10-12T14:50:29.512] [36.batch] cgroup/v1: xcgroup_ns_create: cgroup namespace 'devices' is now mounted
[2023-10-12T14:50:29.514] [36.batch] error: common_cgroup_lock error
[2023-10-12T14:50:29.514] [36.batch] error: task_g_pre_setuid: task/cgroup: Unspecified error
[2023-10-12T14:50:29.514] [36.batch] error: Failed to invoke task plugins: one of task_p_pre_setuid functions returned error
[2023-10-12T14:50:29.515] [36.batch] error: called without a previous init. This shouldn't happen!
[2023-10-12T14:50:29.515] [36.batch] error: job_manager: exiting abnormally: Slurmd could not execve job

是否有任何已知的兼容性问题或建议用于此环境的特定诊断方法?

预先感谢您的任何帮助!

相关内容