Torque 在将作业发布到客户端节点时报告错误

Torque 在将作业发布到客户端节点时报告错误

系统有两台机器,一台(称为 macondo02)运行 pbs_server 和 pbs_schedule,另一台(称为 macondo01)运行 pbs_mom。我已确保主机可以清楚地识别客户机的存在:

$ pbsnodes -a
macondo01
state = free
np = 64
ntype = cluster
status = rectime=1403183300,varattr=,jobs=,state=free,netload=1102560564743,gres=,loadave=0.00,ncpus=64,physmem=131988228kb,availmem=263457400kb,totmem=266160896kb,idletime=705,nusers=6,nsessions=17,sessions=2817 59201 59937 18341 21924 27356 30089 31663 32133 32934 34374 7341 42678 58843 59605 59606 59741,uname=Linux macondo01 3.2.0-38-generic #61-Ubuntu SMP Tue Feb 19 12:18:21 UTC 2013 x86_64,opsys=linux

但是,每当我通过 qsub 提交作业时,作业都不会运行,并且我会在 PBS_server 日志中收到错误消息。

06/19/2014 23:00:19;0040;PBS_Server;Svr;macondo02.edu.au;Scheduler was sent the command new
06/19/2014 23:00:19;0008;PBS_Server;Job;54.macondo02.edu.au;Job Modified at request of [email protected]
06/19/2014 23:00:19;0008;PBS_Server;Job;54.macondo02.edu.au;Job Run at request of [email protected]
06/19/2014 23:00:19;0040;PBS_Server;Svr;macondo02.edu.au;Scheduler was sent the command recyc
06/19/2014 23:00:20;0010;PBS_Server;Job;54.macondo02.uq.edu.au;Exit_status=0 resources_used.cput=00:00:00 resources_used.mem=7680kb resources_used.vmem=23876kb resources_used.walltime=00:00:01
06/19/2014 23:00:24;000d;PBS_Server;Job;54.macondo02.uq.edu.au;Post job file processing error; job 54.macondo02.uq.edu.au on host macondo01/0
06/19/2014 23:00:24;0100;PBS_Server;Job;54.macondo02.uq.edu.au;dequeuing from batch, state COMPLETE
06/19/2014 23:00:24;0040;PBS_Server;Svr;macondo02.uq.edu.au;Scheduler was sent the command term

显然,失败是由于从主机(即 macondo02)向客户机(即 macondo01)发布作业造成的。

我脑子里有几个想法:1. 我知道有必要使用 NFS 在主机和客户机之间建立无缝 shh。我已经对我自己的普通用户这样做了,并使用该用户提交了 qsub 作业。但错误仍然发生。2. 在错误文件中,我看到另一个用户叫[电子邮件保护]但是我在 cat /etc/groups 上既找不到关于此用户的任何信息,也没有授予无缝访问 macondo01 的权限。

任何建议,将不胜感激!

答案1

尝试检查/var/log/syslog运行该作业的机器(即主机)上的 PBS 日志文件macondo01

您正在寻找类似这样的内容,可能是复制作业的日志文件时出现错误:

pbs_mom: LOG_ERROR::sys_copy, command '/usr/bin/scp -rpB /var/spool/torque/spool...

您可以在 中找到该运行的实际日志/var/spool/torque/undelivered/

问题可能出在PBS_SCP需要无密码 ssh 访问机器的命令上,通常它使用如下命令: $PBS_SCP -rpB <path to source> <user>@<destination.host>:<path to destination>

相关内容