扭矩一半时间有效。另一半时间失败

扭矩一半时间有效。另一半时间失败

我们将操作系统从 Debian 5 升级到 Debian 6,并随后升级了 Torque。

现在 qstat 和 qsub 工作了大约 1 分钟,然后又失败了 1 分钟。

我有 Torque-2.5.5(但我尝试了 2.4.8,但有同样的问题)。

当我们运行 qstat 时,一半的时间它可以工作,一半的时间我们得到:

pbs_iff: cannot read reply from pbs_server
No Permission.
qstat: cannot connect to server torque-server (errno=15007) Unauthorized Request

在 mom 系统日志上:

pbs_mom: LOG_ERROR::Operation now in progress (115) in
TMomFinalizeChild, cannot open interactive qsub socket to host
girkelab-3.ucr.edu:51056 - 'cannot connect to port 777 in
client_to_svr - errno:115 Operation now in progress' - check routing
tables/multi-homed host issues

在服务器上:

/opt/torque-2.5.5/bin/qmgr -c 'print server'
#
# Create queues and set their attributes.
#
#
# Create and define queue batch
#
create queue batch
set queue batch queue_type = Execution
set queue batch resources_default.nodes = 1
set queue batch enabled = True
set queue batch started = True
#
# Set server attributes.
#
set server scheduling = True
set server acl_hosts = torque-server
set server acl_hosts += torque-server+biocluster+parrot+owl
set server acl_hosts += owl-33+biocluster-33
set server acl_hosts += girkelab-3+girkelab-4
set server operators = root@torque-server
set server default_queue = batch
set server log_events = 511
set server mail_from = adm
set server query_other_jobs = True
set server scheduler_iteration = 600
set server node_check_rate = 150
set server tcp_timeout = 6
set server log_level = 0
set server submit_hosts = biocluster+parrot+owl
set server submit_hosts += girkelab-3+girkelab-4
set server submit_hosts += owl-33+biocluster-33
set server allow_node_submit = True
set server next_job_number = 206082

为什么运行了一半就说权限错误?

我该怎么做才能诊断这个问题?

答案1

结论:由于节点死机,服务器被堵塞。

在我们找到答案之前,我们尝试了很多方法:

  • 通过 tcpdump 查看单个数据包。
  • 服务器、客户端和妈妈日志。
  • 测试我的网络文件系统是否冻结。
  • 测试 UPD 流量是否丢失数据包。

没什么问题,而且无论我怎么尝试,暂时的“无权限”错误都不会消失。

前一天晚上,我有一个节点死机了。我们以前遇到过 Torque 卡住而不是检测死节点的问题。因此,我从/var/spool/torque/server_priv/nodes(标准 Torque 配置位置)移除了节点。重启 Torque 但没有用。

深夜,我和老板找到了解决方案。其中有一堆旧文件(“正在运行的作业”)/var/spool/torque/server_priv/jobs/属于已删除的死节点。删除。重新启动。解决了。

“未经许可”?!

答案2

相关内容