基于 SLURM / NFS 的计算集群存在磁盘不可中断睡眠问题（状态：D）

2024-6-2 • tag-icon

语境：

我们有一个基于 7 台服务器的计算集群，运行 Debian 11：

当业务用户在前端运行 SLURM 作业时，python 线程会分发到节点，这些节点在其共享的 NFS 挂载上读取和写入数据。

一切都运行良好，直到上周。我们失去了对“frontal”的控制：我们无法通过 ssh 或本地控制台与其交互。我们决定重新启动它，并借此机会将其内核从 5.10.140 升级到 5.10.162

从那时起，SLURM 作业大部分时间处于“不间断睡眠”状态（“D”），并且大多失败。

我们已将内核回滚至版本 5.10.140，但问题仍然存在。

你有什么想法？

相关内容