/var/log/messages 中出现大量 pbs_server 错误

/var/log/messages 中出现大量 pbs_server 错误

在超级计算机的管理节点上,我们收到许多错误,例如:

pbs_server: LOG_ERROR::is_request, bad attempt to connect from 10.10.0.254:1023 (address not trusted - check entry in server_priv/nodes)

在他们之后,几乎每一分钟都会出现这样的情况:

last message repeated 16 times

重复的次数随时间而变化。

提到的地址 10.10.0.254 是管理节点的地址之一。根据“netstat -pa | grep 1023”,端口 1023 与 pbs_mom 相关。

事实证明,管理节点每分钟尝试连接自身几次,但无法连接。错误文本的建议没有多大帮助,据我所知,管理节点不应该在“节点”文件中。

有人可以建议如何解决这个问题吗?

答案1

您的管理节点未在 pbs 中定义为节点。打开 qmgr 并运行“create node [不带括号的主机名]”。另一个选项是终止 pbs_mom,因为您可能不想在头节点上运行计算作业。

答案2

我遇到了这个问题,原因是我在计算节点上有多个网络接口(GE,IB),它们都可以访问管理节点。

受影响的计算节点中的管理节点在单独的子网上定义,因为它应该具有不同的 NIC。

相关内容