如何暂时从 SGE (Sun Grid Engine) 中取出一个节点?

如何暂时从 SGE (Sun Grid Engine) 中取出一个节点?

我在特定节点上遇到了一些问题。在解决问题之前,我不想在 ii 上运行任何作业。我如何才能暂时将此节点从节点“池”中移除?

答案1

禁用方法:

qmod -d *@node_name

重新启用:

qmod -e *@node_name

答案2

如果你运行的是 6.1 或更高版本,那么最好的方法如下。创建一个名为@disabled

qconf -ahgrp @disabled

使用以下方式创建新的资源配额集

qconf -arqs limit hosts @disabled to slots=0

现在,要禁用主机,只需将其添加到主机组

qconf -aattr hostgroup hostlist MYHOST @disabled

要重新启用主机,请将其从主机组中删除

qconf -dattr hostgroup hostlist MYHOST @disabled

此过程将停止将新作业安排到机器并允许当前正在运行的作业完成。

答案3

在不知道你的 SGE 版本的情况下,我无法肯定地说这将实现预期的结果,但是,qconf -de foo将删除执行主机.qconf -ae foo然后将添加主机返回执行列表。

答案4

gridsuspend - 暂停一台或多台主机执行网格作业。示例:gridsuspend -s -r "reason comment here" <host_name> 1d

相关内容