基于 SLURM / NFS 的计算集群存在磁盘不可中断睡眠问题(状态:D)

基于 SLURM / NFS 的计算集群存在磁盘不可中断睡眠问题(状态:D)

语境 :

我们有一个基于 7 台服务器的计算集群,运行 Debian 11:

  • A贮存(HDD NAS,~500TB,RAID5,LVM)
  • A额叶服务器,运行 SLURM,nfs-common
  • 5节点通过 NFS 挂载存储。

当业务用户在前端运行 SLURM 作业时,python 线程会分发到节点,这些节点在其共享的 NFS 挂载上读取和写入数据。

一切都运行良好,直到上周。我们失去了对“frontal”的控制:我们无法通过 ssh 或本地控制台与其交互。我们决定重新启动它,并借此机会将其内核从 5.10.140 升级到 5.10.162

从那时起,SLURM 作业大部分时间处于“不间断睡眠”状态(“D”),并且大多失败。

我们已将内核回滚至版本 5.10.140,但问题仍然存在。

你有什么想法 ?

相关内容