我们在从 deb 包安装的 Debian 7.8 机器网格上使用 Son of Grid Engine 8.1.8。这一直运行良好,直到今天,当用户提交处理流时,所有部分最终都卡在队列中。唯一正在运行的作业是几个 QRLOGIN 作业。有很多核心,但作业仍然处于待处理状态,状态为 qw 或 hqw。qstat -explain 没有提供我认为有用的信息,因此我在这里发帖。
如能得到关于如何诊断和解决该问题的任何建议,我们将不胜感激。
答案1
问题是由于 gridengine 误认为 CPU 已损坏。通过弹回节点解决了该问题。