当提到计算群集的节点状态时,“负载”到底是什么?

当提到计算群集的节点状态时,“负载”到底是什么?

http://apps.cs.utexas.edu/cluster/node_status/index.cgi

您将看到 9 列对应不同的类别,每列指定德克萨斯大学 Mastodon 计算集群中可用的不同机器的属性。

我特别想知道最后 4 列(Condor 负载、其他负载、负载百分比,当然还有内存)。这些数字是什么意思?它们变化太大(从小于 1 到大于 100),对于没有计算集群经验的人来说,无法从中抽象出含义。至于内存列,我不确定如何假设单位应该在什么位置(以及这是否意味着当前可用内存,或系统的潜在内存容量)。

答案1

由于我与该系统没有任何关系,以下是一些(知情的)推测,主要基于我们这里的秃鹰系统:

Condor 负载是 Condor(批处理调度系统)控制下运行的进程的平均负载贡献。

其他负载是来自非秃鹰进程的平均负载贡献。

% 负载为 (condor_load + other_load) / N_cores * 100

内存是指所讨论机器上安装的内存量(以 MB 为单位)减去为非 condor 任务保留的一些量,如 condor 所报告的。

Claimed 表示节点中已被 condor 分配的核心。Unclaimed 表示未运行任何 condor 任务的核心。

相关内容