计算节点stat含义

计算节点stat含义

我向使用 SGE 作业调度程序的 Linux 集群提交了一个作业。作业统计数据长期为qw,因此我使用“qstat -f”检查了计算节点的统计数据。

我发现许多节点都标有统计信息“d”、“adu”和“E”。我想知道这些统计数据意味着什么。这网格引擎手册页列出了这些用于过滤队列实例的统计信息 ( -qs {a|c|d|o|s|u|A|C|D|E|S}),但没有进一步解释这些统计信息的含义。

各州是什么意思?

答案1

我从经验中知道:

  • qw- 排队等待
  • E - 错误
  • a - 表示报警状态
  • du - 被用户删除

这里有一张桌子:

您还可以使用-explain开关来qstat了解更多信息:

 -explain a|A|c|E
      'c' displays the reason for the c(onfiguration  ambigu-
      ous)  state  of  a queue instance. 'a' shows the reason
      for the alarm state. Suspend alarm state  reasons  will
      be  displayed  by  'A'.  'E'  displays the reason for a
      queue instance error state.

      The output format for the alarm reasons is one line per
      reason containing the resource value and threshold. For
      details about the resource value please  refer  to  the
      description  of  the  Full  Format  in  section  OUTPUT
      FORMATS below.

参考

相关内容