重现负载平均计算

重现负载平均计算

我正在深入研究 LA 的计算。那么,我发现了什么:

  1. LA 每五秒计算一次指数移动平均值:

     LA(t) = LA(t-1) + EXP_R * (n(t) - LA(t-1))
    

    在哪里

    • LA(t-1) - 是上一次迭代记录的 LA
    • EXP_R - 是 1、5 和 15 分钟的三个预定义常量
    • n(t) -系统中R(正在运行)或(不可中断)进程的数量D
  2. 这是执行这些操作的内核代码(还有一些浮点数的魔法):

    unsigned long avenrun[3];
    
    static inline void calc_load(unsigned long ticks)
    {
        unsigned long active_tasks; /* fixed-point */
        static int count = LOAD_FREQ;
    
        count -= ticks;
        if (count < 0)
        {
            count += LOAD_FREQ;
            active_tasks = count_active_tasks();
            CALC_LOAD(avenrun[0], EXP_1, active_tasks);
            CALC_LOAD(avenrun[1], EXP_5, active_tasks);
            CALC_LOAD(avenrun[2], EXP_15, active_tasks);
        }
    }
    
    
    static unsigned long count_active_tasks(void)
    {
        struct task_struct *p;
        unsigned long nr = 0;
    
        read_lock(&tasklist_lock);
        for_each_task(p)
        {
            if ((p->state == TASK_RUNNING ||
                 (p->state & TASK_UNINTERRUPTIBLE)))
                nr += FIXED_1;
        }
        read_unlock(&tasklist_lock);
        return nr;
    }
    
    
    #define FSHIFT          11              /* nr of bits of precision */
    #define FIXED_1         (1<<FSHIFT)     /* 1.0 as fixed-point */
    #define LOAD_FREQ       (5*HZ)          /* 5 sec intervals */
    #define EXP_1           1884            /* 1/exp(5sec/1min) as fixed-point */
    #define EXP_5           2014            /* 1/exp(5sec/5min) */
    #define EXP_15          2037            /* 1/exp(5sec/15min) */
    
    #define CALC_LOAD(load,exp,n) \
            load *= exp; \
            load += n*(FIXED_1-exp); \
            load >>= FSHIFT;
    
  3. 我写了一个简单的 bash 脚本来尝试做同样的事情:

    #!/usr/bin/env bash
    set -euo pipefail
    
    LA_1=0
    LA_5=0
    LA_15=0
    
    EXP_1=0.0800
    EXP_5=0.0165
    EXP_15=0.0055
    
    count() {
        echo $(ps -eostat | grep -E "R|D" | wc -l)
    }
    
    echo "1 min          5 min            15 min"
    
    while true; do
        n=$(($(count) - 1)) # -1 to eliminate `ps` from the result
        LA_1=$(bc -l  <<<"$LA_1  + $EXP_1  * ($n - $LA_1)")
        LA_5=$(bc -l  <<<"$LA_5  + $EXP_5  * ($n - $LA_5)")
        LA_15=$(bc -l <<<"$LA_15 + $EXP_15 * ($n - $LA_15)")
        echo -ne "$LA_1      $LA_5      $LA_15\r"
        sleep 5
    done
    

但我的脚本的结果与实际的洛杉矶相差甚远。我认为主要区别来自活动进程的计数,其中内核调用count_active_tasks()和我的脚本使用简单的ps.

我能以某种方式从 bash 获得更精确的活动任务数量吗?或者也许我在其他地方做错了?

UPD:我运行了我的脚本一段时间,结果如下:

1 min                      5 min                      15 min
.42342580723140551985      .53553677285166903835      .35305247755440928285

而实际的洛杉矶是:

load average: 0.80, 1.63, 1.54

内核源代码取自这篇解释LA的文章:https://wiki.nix-pro.com/view/Load_average_explained

UPD:我的脚本中 EXP_R 的定义与内核源代码中的定义不同:在我的脚本中,它实际上是 1 - exp_kernel (其中 exp_kernel - 是内核源代码中的定义)。它不会影响最终结果,因为最终因素保持不变

答案1

感谢@muru,他发现我使用的公式有错误。这是正确的,结果也非常准确:

#!/usr/bin/env bash
set -euo pipefail

LA_1=0
LA_5=0
LA_15=0

EXP_1=0.9200
EXP_5=0.9835
EXP_15=0.9945

count() {
    echo $(ps -eostat | grep -E "R|D" | wc -l)
}

echo "1 min         5 min           15 min"

while true; do
    n=$(($(count) - 1))
    LA_1=$(bc -l   <<<"$LA_1  * $EXP_1 +  $n * (1 - $EXP_1)")
    LA_5=$(bc -l   <<<"$LA_5  * $EXP_5 +  $n * (1 - $EXP_5)")
    LA_15=$(bc -l  <<<"$LA_15 * $EXP_15 + $n * (1 - $EXP_15)")
    echo -ne "$LA_1      $LA_5      $LA_15\r"
    sleep 5
done

相关内容