我正在与泥浆和面临的问题特别是使用 cgroups 插件Ubuntu 22.04 节点我们的团队对 Slurm 的使用还比较新,我们一直在尝试优化资源管理以应对复杂的计算任务。然而,我们遇到了一系列难以解决的错误。
以下是我们的问题的简要概述:
我们最初在两个 Ubuntu 22.04 节点和一个 Ubuntu 18.04 节点上使用 cgroups V2 插件,但效果不如预期。
切换到 cgroups V1 插件后,我们可以在 Ubuntu 18.04 节点上运行作业,但 Ubuntu 22.04 节点开始显示错误。
错误包括在中打开和安装目录的问题
/sys/fs/cgroup
,以及节点进入idle
然后drain
状态后执行作业的尝试。
错误开始出现的日志如下:
[2023-10-12T14:50:29.479] [36.batch] error: unable to open '/sys/fs/cgroup/cpuset//tasks' for reading : No such file or directory
[2023-10-12T14:50:29.511] [36.batch] error: unable to mount cpuset cgroup namespace: Device or resource busy
[2023-10-12T14:50:29.511] [36.batch] error: unable to create cpuset cgroup namespace
[2023-10-12T14:50:29.511] [36.batch] error: unable to open '/sys/fs/cgroup/devices//tasks' for reading : No such file or directory
[2023-10-12T14:50:29.512] [36.batch] cgroup/v1: xcgroup_ns_create: cgroup namespace 'devices' is now mounted
[2023-10-12T14:50:29.514] [36.batch] error: common_cgroup_lock error
[2023-10-12T14:50:29.514] [36.batch] error: task_g_pre_setuid: task/cgroup: Unspecified error
[2023-10-12T14:50:29.514] [36.batch] error: Failed to invoke task plugins: one of task_p_pre_setuid functions returned error
[2023-10-12T14:50:29.515] [36.batch] error: called without a previous init. This shouldn't happen!
[2023-10-12T14:50:29.515] [36.batch] error: job_manager: exiting abnormally: Slurmd could not execve job
我们尝试过更改内核参数,但这并没有解决问题。我正在寻找有关在 Ubuntu 22.04 上解决这些错误的建议。
对于这种情况下可能的原因或诊断工具有什么见解可能有用吗?