我想将一个节点(或一组节点)标记为“离线”,意思是我希望 Sun Grid Engine 停止为它们分配新工作。这将用于对节点本身进行某种维护工作。节点应该完成分配给它们的任何工作,然后进入某种空闲(“离线”)状态。我一直在搜索 qconf 文档,但在任何操作指南中都找不到此用例。
答案1
搜索后,我找到了 qmod 实用程序。我做了一个简单的测试
qmod -d 队列名称.q@机器名称
虽然我还没有在运行作业时尝试过,但这似乎有效。qstat 输出已更改,以指示该节点已禁用 - 出现“d”标志。
qmod -e 队列名称.q@机器名称
将再次启用机器。
在我们的集群中,机器被命名为 worker-###-###,其中两个数字是机架号和等级号。我们只运行一个主队列,称为“all.q”。我们集群中的机器在 qstat 输出中以“.local”后缀列出。因此,上述命令最终为
qmod-d 命令[电子邮件保护]
将位于机架 9 号、排在第 9 位的机器从排队轮换中取出。