我正在使用 Ubuntu 10.04,并尝试从 Ubuntu 存储库安装 Sun Grid Engine。它可以在单台机器上运行,我可以提交作业等。但我无法让它在任何其他机器上运行。我添加了另一台执行主机并进行了安装,gridengine-client gridengine-common gridengine-exec
但它不知何故无法与主服务器通信。我甚至关闭了所有防火墙以确保它不会造成问题。
当我qstat -f
在主节点上尝试时,我得到:
queuename qtype resv/used/tot. load_avg arch states
---------------------------------------------------------------------------------
standard@neuron1 BIP 0/0/2 0.04 lx26-amd64
---------------------------------------------------------------------------------
standard@neuron2 BIP 0/0/2 -NA- -NA- au
当我重新启动 neuron2 节点上的守护进程时,我得到:
error: can't find connection
error: can't get configuration from qmaster -- backgrounding
当我尝试qstat -f
从 n2(neuron2)节点运行时,我得到:
error: commlib error: access denied (server host resolves destination host "n1" as "neuron1")
error: unable to contact qmaster using port 6444 on host "n1"
这台机器有两个主机名,看起来第一个错误与它有关,但如果它导致这种问题,那就很奇怪了。我试过了,telnet n1 6444
它连接上了。
有人知道这是怎么回事吗?我遗漏了什么吗?
答案1
好的,问题确实出在重复的主机名上。当我删除一个主机名后,它开始工作了。我会深入研究并尝试找出为什么会这样。