我的 OGE 配置有问题。节点的 load_avg 未设置(仍为 -NA-)。由于这个原因,并且由于队列上的 np_load_avg 阈值,没有运行任何作业。
[ce@node1 ce]$ qhost -F -l h=node2
HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS
-------------------------------------------------------------------------------
node2 - - - - - - -
default/spool/localhost/messages 和 qmaster/messages 中均未弹出任何错误。队列调度消息为“复杂属性 np_load_avg 没有值”。
我没有看到任何迹象表明可能出了什么问题,执行节点上进行了以下工作:
- 获取主机名
- 获取主机名 master
- qstat -f
- 负载检查
答案1
问题出在我的 /etc/hosts 文件中,我有:
127.0.0.1 node2
这必须变成:
10.0.0.2 node2
终于给我
[ce@node1 ce]$ qhost -F -l h=node2
HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS
-------------------------------------------------------------------------------
node2 linux-x64 8 0.00 31.3G 308.8M 11.9G 0.0
和
[ce@node2 ce]# utilbin/linux-x64/gethostname
Hostname: node2
Aliases:
Host Address(es): 10.0.0.2