我向使用 SGE 作业调度程序的 Linux 集群提交了一个作业。作业统计数据长期为qw,因此我使用“qstat -f”检查了计算节点的统计数据。
我发现许多节点都标有统计信息“d”、“adu”和“E”。我想知道这些统计数据意味着什么。这网格引擎手册页列出了这些用于过滤队列实例的统计信息 ( -qs {a|c|d|o|s|u|A|C|D|E|S}
),但没有进一步解释这些统计信息的含义。
各州是什么意思?
答案1
我从经验中知道:
qw
- 排队等待E
- 错误a
- 表示报警状态du
- 被用户删除
这里有一张桌子:
您还可以使用-explain
开关来qstat
了解更多信息:
-explain a|A|c|E
'c' displays the reason for the c(onfiguration ambigu-
ous) state of a queue instance. 'a' shows the reason
for the alarm state. Suspend alarm state reasons will
be displayed by 'A'. 'E' displays the reason for a
queue instance error state.
The output format for the alarm reasons is one line per
reason containing the resource value and threshold. For
details about the resource value please refer to the
description of the Full Format in section OUTPUT
FORMATS below.