89% cpu 是理想的,但 rhel8.4 中的平均负载非常高

89% cpu 是理想的,但 rhel8.4 中的平均负载非常高

我使用的是 RHEL 8.4,尽管我的 CPU 空闲率为 89%,但我似乎总是具有非常高的平均负载:

$ uname -a
Linux dx11866-hs 4.18.0-305.el8.ppc64le #1 SMP Thu Apr 29 08:53:15 EDT 2021 ppc64le ppc64le ppc64le GNU/Linux

$top
top - 19:32:45 up 150 days,  3:45,  1 user,  load average: 3936.78, 3934.85, 3935.12
Tasks: 819 total,   1 running, 818 sleeping,   0 stopped,   0 zombie
%Cpu(s): 10.6 us,  0.4 sy,  0.0 ni, 89.1 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
MiB Mem : 377629.6 total, 197139.6 free, 169755.4 used,  10734.7 buff/cache
MiB Swap:  16383.9 total,  12444.2 free,   3939.8 used. 199111.0 avail Mem

    PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND
1271217 yarn      20   0 8059136   5.7g  20608 S 318.8   1.6   6716:49 java
 999164 yarn      20   0   10.3g   3.4g 117376 S 162.5   0.9   2:43.75 java
 997941 yarn      20   0   12.0g   2.1g  71040 S  43.8   0.6   3:28.04 java
     10 root      20   0       0      0      0 I   6.2   0.0  90:45.27 rcu_sched
1000002 yarn      20   0   12.0g 761088  65344 S   6.2   0.2   0:12.84 java
1001197 yarn      20   0   12.0g 752704  65344 S   6.2   0.2   0:11.60 java
1001966 root      20   0   17600   8384   4992 R   6.2   0.0   0:00.02 top
3291901 yarn      20   0 7763072   1.6g  14912 S   6.2   0.4   3027:36 java
4002263 root      20   0 7263168   4.4g  16832 S   6.2   1.2   5859:55 java
      1 root      20   0  181888  19136  10624 S   0.0   0.0  13:50.34 systemd
      2 root      20   0       0      0      0 S   0.0   0.0   0:19.21 kthreadd
      3 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 rcu_gp
      4 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 rcu_par_gp
      6 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 kworker/0:0H-events_highpri
      8 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 mm_percpu_wq
      9 root      20   0       0      0      0 S   0.0   0.0   3:40.28 ksoftirqd/0
     11 root      rt   0       0      0      0 S   0.0   0.0   0:11.21 migration/0
     12 root      rt   0       0      0      0 S   0.0   0.0   0:18.17 watchdog/0
     13 root      20   0       0      0      0 S   0.0   0.0   0:00.00 cpuhp/0
     14 root      20   0       0      0      0 S   0.0   0.0   0:00.00 cpuhp/1
     15 root      rt   0       0      0      0 S   0.0   0.0   0:19.25 watchdog/1
     16 root      rt   0       0      0      0 S   0.0   0.0   0:11.58 migration/1
     17 root      20   0       0      0      0 S   0.0   0.0   3:26.51 ksoftirqd/1
     19 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 kworker/1:0H-events_highpri
     20 root      20   0       0      0      0 S   0.0   0.0   0:00.00 cpuhp/2
     21 root      rt   0       0      0      0 S   0.0   0.0   0:19.18 watchdog/2
     22 root      rt   0       0      0      0 S   0.0   0.0   0:04.86 migration/2
     23 root      20   0       0      0      0 S   0.0   0.0   1:54.07 ksoftirqd/2
     25 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 kworker/2:0H-events_highpri
     26 root      20   0       0      0      0 S   0.0   0.0   0:00.00 cpuhp/3
     27 root      rt   0       0      0      0 S   0.0   0.0   0:18.64 watchdog/3
     28 root      rt   0       0      0      0 S   0.0   0.0   0:04.53 migration/3

# grep -c proc /proc/cpuinfo
48

 iostat
Linux 4.18.0-305.el8.ppc64le (<hostname>)       11/06/2023      _ppc64le_       (48 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          12.61    0.00    0.64    0.05    0.00   86.70

Device             tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
nvme0n1           3.59         2.05       171.95   27091032 2268469720
dm-0              0.03         0.14         0.36    1840516    4710876
dm-1              0.03         0.58         1.33    7592176   17510144
dm-2              3.28         0.08       116.26    1036872 1533830064
dm-3              0.53         0.00        40.67      16352  536491196
dm-4              0.00         0.07         0.03     927276     458764
dm-5              0.00         0.00         0.00      18380       5276
dm-6              0.00         0.00         0.00      14660       2084
dm-7              0.32         0.32        13.30    4249592  175458336

iostat -d 5 -x
Linux 4.18.0-305.el8.ppc64le (<hostname>)       11/07/2023      _ppc64le_       (48 CPU)

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          3.77    7.89    513.41   5294.93     0.02     0.60   0.50   7.05    0.17   22.80   0.18   136.12   671.13   1.22   1.43
dm-0             1.61    0.19    125.55      3.16     0.00     0.00   0.00   0.00    0.11    0.29   0.00    77.75    16.84   1.03   0.19
dm-1             0.01    0.00      0.81      0.00     0.00     0.00   0.00   0.00    0.18    0.00   0.00    65.45     0.00   1.45   0.00
dm-2             0.72    2.95     91.00    295.43     0.00     0.00   0.00   0.00    0.21    0.29   0.00   126.23   100.27   1.67   0.61
dm-3             0.15    0.42      9.58     19.93     0.00     0.00   0.00   0.00    0.14    0.16   0.00    64.72    47.42   3.54   0.20
dm-4             0.40    0.04     47.73      1.11     0.00     0.00   0.00   0.00    0.14    0.16   0.00   119.67    26.24   1.43   0.06
dm-5             0.03    0.00      1.52      0.49     0.00     0.00   0.00   0.00    0.07    5.00   0.00    48.03   108.60   2.17   0.01
dm-6             0.07    0.00    126.99      0.47     0.00     0.00   0.00   0.00    0.63    0.00   0.00  1866.09   297.71   3.87   0.03
dm-7             0.52    1.13     97.19   4969.42     0.00     0.00   0.00   0.00    0.13   14.85   0.02   187.01  4403.33   2.99   0.49

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.20    0.40      1.60     13.60     0.00     0.00   0.00   0.00    0.00    0.00   0.00     8.00    34.00   6.67   0.40
dm-0             0.20    0.00      1.60      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     8.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    0.20      0.00      0.80     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     4.00  10.00   0.20
dm-3             0.00    0.20      0.00     12.80     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    64.00  10.00   0.20
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.00    9.40      0.00    319.20     0.00     2.60   0.00  21.67    0.00    0.09   0.00     0.00    33.96   1.06   1.00
dm-0             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    6.60      0.00    229.60     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    34.79   0.91   0.60
dm-3             0.00    4.00      0.00     75.20     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    18.80   1.00   0.40
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    1.40      0.00     14.40     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    10.29   2.86   0.40

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.00    2.20      0.00     84.80     0.00     0.20   0.00   8.33    0.00    0.09   0.00     0.00    38.55   2.73   0.60
dm-0             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    2.20      0.00     72.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    32.73   1.82   0.40
dm-3             0.00    0.20      0.00     12.80     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    64.00  10.00   0.20
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.00    0.40      0.00      1.60     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     4.00  10.00   0.40
dm-0             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    0.40      0.00      1.60     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     4.00  10.00   0.40
dm-3             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.00    1.00      0.00     40.00     0.00     0.40   0.00  28.57    0.00    0.00   0.00     0.00    40.00   6.00   0.60
dm-0             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    0.40      0.00     13.60     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    34.00   5.00   0.20
dm-3             0.00    0.20      0.00     12.80     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    64.00  10.00   0.20
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    0.80      0.00     13.60     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    17.00   2.50   0.20

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.00    1.40      0.00     58.40     0.00     0.00   0.00   0.00    0.00    0.14   0.00     0.00    41.71   4.29   0.60
dm-0             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    1.00      0.00     32.80     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    32.80   4.00   0.40
dm-3             0.00    0.40      0.00     25.60     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    64.00   5.00   0.20
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.00    0.80      0.00     27.20     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    34.00   7.50   0.60
dm-0             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    0.20      0.00      0.80     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     4.00  10.00   0.20
dm-3             0.00    0.20      0.00     12.80     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    64.00  10.00   0.20
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    0.40      0.00     13.60     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    34.00   5.00   0.20

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.00    9.00      0.00    300.00     0.00     2.00   0.00  18.18    0.00    0.09   0.00     0.00    33.33   1.11   1.00
dm-0             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    9.00      0.00    264.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    29.33   0.67   0.60
dm-3             0.00    1.20      0.00     30.40     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    25.33   3.33   0.40
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    0.80      0.00      5.60     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     7.00   2.50   0.20

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.00    1.20      0.00     41.60     0.00     0.20   0.00  14.29    0.00    0.00   0.00     0.00    34.67   3.33   0.40
dm-0             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    0.40      0.00     13.60     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    34.00   5.00   0.20
dm-3             0.00    0.20      0.00     12.80     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    64.00  10.00   0.20
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    0.80      0.00     15.20     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    19.00   2.50   0.20

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.00    2.00      0.00     62.40     0.00     0.80   0.00  28.57    0.00    0.10   0.00     0.00    31.20   3.00   0.60
dm-0             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    1.40      0.00     32.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    22.86   2.86   0.40
dm-3             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    1.40      0.00     30.40     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    21.71   1.43   0.20

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
nvme0n1          0.00    1.40      0.00     63.20     0.00     0.20   0.00  12.50    0.00    0.14   0.00     0.00    45.14   4.29   0.60
dm-0             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-2             0.00    0.80      0.00     39.20     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    49.00   2.50   0.20
dm-3             0.00    0.20      0.00     12.80     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    64.00  10.00   0.20
dm-4             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-5             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-6             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-7             0.00    0.60      0.00     11.20     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00    18.67   3.33   0.20

 #lscpu
Architecture:        ppc64le
Byte Order:          Little Endian
CPU(s):              48
On-line CPU(s) list: 0-47
Thread(s) per core:  8
Core(s) per socket:  6
Socket(s):           1
NUMA node(s):        1
Model:               2.0 (pvr 0080 0200)
Model name:          POWER10 (architected), altivec supported
Hypervisor vendor:   pHyp
Virtualization type: para
L1d cache:           32K
L1i cache:           48K
L2 cache:            1024K
L3 cache:            4096K
NUMA node0 CPU(s):   0-47
Physical sockets:    1
Physical chips:      4
Physical cores/chip: 6

# numactl --hardware
available: 1 nodes (0)
node 0 cpus: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
node 0 size: 379675 MB
node 0 free: 278579 MB
node distances:
node   0
  0:  10

# numastat
                           node0
numa_hit                26144191
numa_miss                      0
numa_foreign                   0
interleave_hit           5660366
local_node              26144191
other_node                     0


How can I identify the bottleneck and how can I fix this?


cat /proc/interrupts output - https://pastebin.com/wjqrYVZm

答案1

当您的应用程序(特别是 Java 应用程序)使用大量线程,并且某些内容(例如数据库操作或网络访问)强制应用程序进行序列化时,这实际上是一种典型模式。

如果大多数应用程序的线程正在等待无法完全表示为操作系统调度程序的等待状态的某些内容,那么所有线程都将排队等待处理,但一旦轮到它们,它们中的大多数将只检查它们要处理的内容。正在等待,并将放弃本轮的 CPU 时隙并再次回到执行队列。即使 CPU 实际上有足够的空闲时间,这也可能导致负载平均值增长到荒谬的水平。

这可能会导致自动监控(甚至操作人员!)恐慌,因为传统计算密集型工作负载上如此高的负载值将意味着系统无可救药地陷入困境,无法完成太多有用的工作。但由于有大量空闲 CPU 时间和大量可用内存,因此您的工作负载显然既不是计算密集型也不是内存密集型:它必须是 I/O 密集型。

Java VM 可能会加剧这样的情况:如果 JVM 级别的 Java 线程的等待状态无法直接映射到相应的操作系统级别的等待状态,那么即使 Java 代码“休眠”,该 Java 线程的底层线程也会处于休眠状态。 JVM需要不断检查唤醒条件,这也会导致如上所述的“短循环”。

在您的具体情况下,CPU 时间的前 10 个消费者中有 7 个是 user 的 Java 进程yarn。您应该深入研究 JVM,调查每个 JVM 的各个线程平均正在做什么,并尝试找出它们正在等待什么。我的第一个猜测是某种数据库或网络操作正在阻止某些关键线程,然后其他线程无法继续,直到该关键线程可以前进。

不幸的是,这往往是只有应用程序开发人员才能真正解决的问题。他们可能必须找到能够以无锁方式完成所需任务的算法,和/或确保他们的数据库查询是合理的,并且数据库的结构对于应用程序对其提出的要求是最佳的。

一些有用的阅读:https://www.brendangregg.com/blog/2017-08-08/linux-load-averages.html

相关内容