在超级计算机的管理节点上,我们收到许多错误,例如:
pbs_server: LOG_ERROR::is_request, bad attempt to connect from 10.10.0.254:1023 (address not trusted - check entry in server_priv/nodes)
在他们之后,几乎每一分钟都会出现这样的情况:
last message repeated 16 times
重复的次数随时间而变化。
提到的地址 10.10.0.254 是管理节点的地址之一。根据“netstat -pa | grep 1023”,端口 1023 与 pbs_mom 相关。
事实证明,管理节点每分钟尝试连接自身几次,但无法连接。错误文本的建议没有多大帮助,据我所知,管理节点不应该在“节点”文件中。
有人可以建议如何解决这个问题吗?
答案1
您的管理节点未在 pbs 中定义为节点。打开 qmgr 并运行“create node [不带括号的主机名]”。另一个选项是终止 pbs_mom,因为您可能不想在头节点上运行计算作业。
答案2
我遇到了这个问题,原因是我在计算节点上有多个网络接口(GE,IB),它们都可以访问管理节点。
受影响的计算节点中的管理节点在单独的子网上定义,因为它应该具有不同的 NIC。