作业无法在 Torque 下运行,安装 Maui 也无济于事

作业无法在 Torque 下运行,安装 Maui 也无济于事

因此,我刚刚在我们正在设置的小型集群上安装了 Torque,一切似乎都进展顺利。我pbs_mon在计算节点上运行,在头节点上运行 pbs_server,pbsnodes -a从头节点显示所有节点都处于“空闲”状态。

但是,当我echo 'sleep 30'使用命令提交一个简单的作业(甚至是作业)时qsub,这些作业只是停留在队列中,永远不会执行。我有四个计算节点,正在请求 4 个节点(未指定的内存/时间/ppn)。

我认为也许我需要安装 Maui 才能使作业调度正常工作,但事后看来,Torque 应该能够自行调度和执行作业,不是吗?无论如何,我在头节点上安装了 Maui(成功?)(执行 showq 显示我提交的作业被阻止)...我假设它在头节点上运行良好,否则我将无法看到我通过 qsub 提交的作业,对吗?我是否需要在每个计算节点上安装 Maui 才能使其正常工作?我是否也需要在这些节点上启动 maui?

我真的只想让它适用于一些简单的东西……我们稍后再讨论其余的事情。我对此很陌生,将不胜感激任何提供的帮助。我尝试按照安装指南中提到的操作,就像我说的,一切似乎都有效,但现在它的表现并不像我预期的那样。

checkjob这是在队列中运行作业的输出......

  job is deferred.  Reason:  RMFailure  (cannot start job - RM failure, rc: 15043, 
  msg: 'Execution server rejected request MSG=cannot send job to mom, state=PRERUN')
  Holds:    Defer  (hold reason:  RMFailure)
  PE:  1.00  StartPriority:  1
  cannot select job 8 for partition DEFAULT (job hold active)

我认为它pbs_mom在所有计算节点上运行:

  [root@host1 ~]# service pbs_mom status
  pbs_mom (pid 27824) is running...

  [root@host2 ~]# service pbs_mom status
  pbs_mom (pid 20164) is running...

  [root@host3 ~]# service pbs_mom status
  pbs_mom (pid 23981) is running...

  [root@host4 ~]# service pbs_mom status
  pbs_mom (pid 23996) is running...

我也相信pbs_server它在头节点上运行......我的问题可能是我需要更改 iptables 以确保所需的端口没有被阻止?同样,所有节点在一段时间后都显示为空闲pbsnodes -a...

万一其中包含有用的信息......

  [root@headnode maui-3.3.1]# pbsnodes -a
  host1
       state = free
       np = 4
       properties = dual470
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=164038242,gres=,
  loadave=0.00,ncpus=4,physmem=8060460kb,availmem=17684340kb,totmem=18349604kb,
  idletime=241170,nusers=2,nsessions=9,sessions=3444 3328 3564 3574 3604 3620 
  3630 3684 6843,uname=Linux hawc1 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host2
       state = free
       np = 4
       properties = dual480
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=106187454,gres=,
  loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13819772kb,
  totmem=14219264kb,idletime=241201,nusers=1,nsessions=6,sessions=3446 
  3450 3452 3477 3479 3504,uname=Linux hawc2 2.6.32-71.29.1.el6.x86_64 
  #1 SMP Mon Jun 27 19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host3
       state = free
       np = 4
       properties = dual480
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=148456196,gres=,
  loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13722692kb,totmem=14219264kb,
  idletime=241161,nusers=2,nsessions=8,sessions=3482 3362 3584 3594 3624 3640 
  3650 3706,uname=Linux hawc3 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host4
       state = free
       np = 4
       properties = 480C2050
       ntype = cluster
       status = 
  rectime=1317050595,varattr=,jobs=,state=free,netload=154812523,gres=,
  loadave=0.01,ncpus=8,physmem=8058888kb,availmem=13715256kb,totmem=14219264kb,
  idletime=241142,nusers=2,nsessions=9,sessions=3504 3386 3590 3600 3630 3650 
  3655 3712 3829,uname=Linux hawc4 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

解决了:

所以事实证明 iptables 搞错了。我禁用了计算节点上的 iptables,并在头节点中添加了正确的条目,现在它似乎工作正常……我可以 qsub echo“sleep 30”并看到它工作正常。我遇到了一个新问题,但我现在要提出一个新问题……希望这个问题会更简单!

相关内容