我在特定节点上遇到了一些问题。在解决问题之前,我不想在 ii 上运行任何作业。我如何才能暂时将此节点从节点“池”中移除?
答案1
禁用方法:
qmod -d *@node_name
重新启用:
qmod -e *@node_name
答案2
如果你运行的是 6.1 或更高版本,那么最好的方法如下。创建一个名为@disabled
qconf -ahgrp @disabled
使用以下方式创建新的资源配额集
qconf -arqs limit hosts @disabled to slots=0
现在,要禁用主机,只需将其添加到主机组
qconf -aattr hostgroup hostlist MYHOST @disabled
要重新启用主机,请将其从主机组中删除
qconf -dattr hostgroup hostlist MYHOST @disabled
此过程将停止将新作业安排到机器并允许当前正在运行的作业完成。
答案3
在不知道你的 SGE 版本的情况下,我无法肯定地说这将实现预期的结果,但是,qconf -de foo
将删除执行主机富.qconf -ae foo
然后将添加主机富返回执行列表。
答案4
gridsuspend - 暂停一台或多台主机执行网格作业。示例:gridsuspend -s -r "reason comment here" <host_name> 1d