语境 :
我们有一个基于 7 台服务器的计算集群,运行 Debian 11:
- A贮存(HDD NAS,~500TB,RAID5,LVM)
- A额叶服务器,运行 SLURM,nfs-common
- 5节点通过 NFS 挂载存储。
当业务用户在前端运行 SLURM 作业时,python 线程会分发到节点,这些节点在其共享的 NFS 挂载上读取和写入数据。
一切都运行良好,直到上周。我们失去了对“frontal”的控制:我们无法通过 ssh 或本地控制台与其交互。我们决定重新启动它,并借此机会将其内核从 5.10.140 升级到 5.10.162
从那时起,SLURM 作业大部分时间处于“不间断睡眠”状态(“D”),并且大多失败。
我们已将内核回滚至版本 5.10.140,但问题仍然存在。
你有什么想法 ?