尝试在 Ubuntu 10.04 上安装 Sun Grid Engine - 无法连接更多执行主机

尝试在 Ubuntu 10.04 上安装 Sun Grid Engine - 无法连接更多执行主机

我正在使用 Ubuntu 10.04,并尝试从 Ubuntu 存储库安装 Sun Grid Engine。它可以在单台机器上运行,我可以提交作业等。但我无法让它在任何其他机器上运行。我添加了另一台执行主机并进行了安装,gridengine-client gridengine-common gridengine-exec但它不知何故无法与主服务器通信。我甚至关闭了所有防火墙以确保它不会造成问题。

当我qstat -f在主节点上尝试时,我得到:

queuename                      qtype resv/used/tot. load_avg arch          states
---------------------------------------------------------------------------------
standard@neuron1               BIP   0/0/2          0.04     lx26-amd64    
---------------------------------------------------------------------------------
standard@neuron2               BIP   0/0/2          -NA-     -NA-          au

当我重新启动 neuron2 节点上的守护进程时,我得到:

error: can't find connection
error: can't get configuration from qmaster -- backgrounding

当我尝试qstat -f从 n2(neuron2)节点运行时,我得到:

error: commlib error: access denied (server host resolves destination host "n1" as "neuron1")
error: unable to contact qmaster using port 6444 on host "n1"

这台机器有两个主机名,看起来第一个错误与它有关,但如果它导致这种问题,那就很奇怪了。我试过了,telnet n1 6444它连接上了。

有人知道这是怎么回事吗?我遗漏了什么吗?

答案1

好的,问题确实出在重复的主机名上。当我删除一个主机名后,它开始工作了。我会深入研究并尝试找出为什么会这样。

相关内容