我使用的是 RHEL 8.4,尽管我的 CPU 空闲率为 89%,但我似乎总是具有非常高的平均负载:
$ uname -a
Linux dx11866-hs 4.18.0-305.el8.ppc64le #1 SMP Thu Apr 29 08:53:15 EDT 2021 ppc64le ppc64le ppc64le GNU/Linux
$top
top - 19:32:45 up 150 days, 3:45, 1 user, load average: 3936.78, 3934.85, 3935.12
Tasks: 819 total, 1 running, 818 sleeping, 0 stopped, 0 zombie
%Cpu(s): 10.6 us, 0.4 sy, 0.0 ni, 89.1 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
MiB Mem : 377629.6 total, 197139.6 free, 169755.4 used, 10734.7 buff/cache
MiB Swap: 16383.9 total, 12444.2 free, 3939.8 used. 199111.0 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1271217 yarn 20 0 8059136 5.7g 20608 S 318.8 1.6 6716:49 java
999164 yarn 20 0 10.3g 3.4g 117376 S 162.5 0.9 2:43.75 java
997941 yarn 20 0 12.0g 2.1g 71040 S 43.8 0.6 3:28.04 java
10 root 20 0 0 0 0 I 6.2 0.0 90:45.27 rcu_sched
1000002 yarn 20 0 12.0g 761088 65344 S 6.2 0.2 0:12.84 java
1001197 yarn 20 0 12.0g 752704 65344 S 6.2 0.2 0:11.60 java
1001966 root 20 0 17600 8384 4992 R 6.2 0.0 0:00.02 top
3291901 yarn 20 0 7763072 1.6g 14912 S 6.2 0.4 3027:36 java
4002263 root 20 0 7263168 4.4g 16832 S 6.2 1.2 5859:55 java
1 root 20 0 181888 19136 10624 S 0.0 0.0 13:50.34 systemd
2 root 20 0 0 0 0 S 0.0 0.0 0:19.21 kthreadd
3 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 rcu_gp
4 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 rcu_par_gp
6 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 kworker/0:0H-events_highpri
8 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 mm_percpu_wq
9 root 20 0 0 0 0 S 0.0 0.0 3:40.28 ksoftirqd/0
11 root rt 0 0 0 0 S 0.0 0.0 0:11.21 migration/0
12 root rt 0 0 0 0 S 0.0 0.0 0:18.17 watchdog/0
13 root 20 0 0 0 0 S 0.0 0.0 0:00.00 cpuhp/0
14 root 20 0 0 0 0 S 0.0 0.0 0:00.00 cpuhp/1
15 root rt 0 0 0 0 S 0.0 0.0 0:19.25 watchdog/1
16 root rt 0 0 0 0 S 0.0 0.0 0:11.58 migration/1
17 root 20 0 0 0 0 S 0.0 0.0 3:26.51 ksoftirqd/1
19 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 kworker/1:0H-events_highpri
20 root 20 0 0 0 0 S 0.0 0.0 0:00.00 cpuhp/2
21 root rt 0 0 0 0 S 0.0 0.0 0:19.18 watchdog/2
22 root rt 0 0 0 0 S 0.0 0.0 0:04.86 migration/2
23 root 20 0 0 0 0 S 0.0 0.0 1:54.07 ksoftirqd/2
25 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 kworker/2:0H-events_highpri
26 root 20 0 0 0 0 S 0.0 0.0 0:00.00 cpuhp/3
27 root rt 0 0 0 0 S 0.0 0.0 0:18.64 watchdog/3
28 root rt 0 0 0 0 S 0.0 0.0 0:04.53 migration/3
# grep -c proc /proc/cpuinfo
48
iostat
Linux 4.18.0-305.el8.ppc64le (<hostname>) 11/06/2023 _ppc64le_ (48 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
12.61 0.00 0.64 0.05 0.00 86.70
Device tps kB_read/s kB_wrtn/s kB_read kB_wrtn
nvme0n1 3.59 2.05 171.95 27091032 2268469720
dm-0 0.03 0.14 0.36 1840516 4710876
dm-1 0.03 0.58 1.33 7592176 17510144
dm-2 3.28 0.08 116.26 1036872 1533830064
dm-3 0.53 0.00 40.67 16352 536491196
dm-4 0.00 0.07 0.03 927276 458764
dm-5 0.00 0.00 0.00 18380 5276
dm-6 0.00 0.00 0.00 14660 2084
dm-7 0.32 0.32 13.30 4249592 175458336
iostat -d 5 -x
Linux 4.18.0-305.el8.ppc64le (<hostname>) 11/07/2023 _ppc64le_ (48 CPU)
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 3.77 7.89 513.41 5294.93 0.02 0.60 0.50 7.05 0.17 22.80 0.18 136.12 671.13 1.22 1.43
dm-0 1.61 0.19 125.55 3.16 0.00 0.00 0.00 0.00 0.11 0.29 0.00 77.75 16.84 1.03 0.19
dm-1 0.01 0.00 0.81 0.00 0.00 0.00 0.00 0.00 0.18 0.00 0.00 65.45 0.00 1.45 0.00
dm-2 0.72 2.95 91.00 295.43 0.00 0.00 0.00 0.00 0.21 0.29 0.00 126.23 100.27 1.67 0.61
dm-3 0.15 0.42 9.58 19.93 0.00 0.00 0.00 0.00 0.14 0.16 0.00 64.72 47.42 3.54 0.20
dm-4 0.40 0.04 47.73 1.11 0.00 0.00 0.00 0.00 0.14 0.16 0.00 119.67 26.24 1.43 0.06
dm-5 0.03 0.00 1.52 0.49 0.00 0.00 0.00 0.00 0.07 5.00 0.00 48.03 108.60 2.17 0.01
dm-6 0.07 0.00 126.99 0.47 0.00 0.00 0.00 0.00 0.63 0.00 0.00 1866.09 297.71 3.87 0.03
dm-7 0.52 1.13 97.19 4969.42 0.00 0.00 0.00 0.00 0.13 14.85 0.02 187.01 4403.33 2.99 0.49
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.20 0.40 1.60 13.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 8.00 34.00 6.67 0.40
dm-0 0.20 0.00 1.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 8.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 0.20 0.00 0.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 4.00 10.00 0.20
dm-3 0.00 0.20 0.00 12.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 64.00 10.00 0.20
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.00 9.40 0.00 319.20 0.00 2.60 0.00 21.67 0.00 0.09 0.00 0.00 33.96 1.06 1.00
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 6.60 0.00 229.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 34.79 0.91 0.60
dm-3 0.00 4.00 0.00 75.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 18.80 1.00 0.40
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 1.40 0.00 14.40 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 10.29 2.86 0.40
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.00 2.20 0.00 84.80 0.00 0.20 0.00 8.33 0.00 0.09 0.00 0.00 38.55 2.73 0.60
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 2.20 0.00 72.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 32.73 1.82 0.40
dm-3 0.00 0.20 0.00 12.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 64.00 10.00 0.20
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.00 0.40 0.00 1.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 4.00 10.00 0.40
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 0.40 0.00 1.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 4.00 10.00 0.40
dm-3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.00 1.00 0.00 40.00 0.00 0.40 0.00 28.57 0.00 0.00 0.00 0.00 40.00 6.00 0.60
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 0.40 0.00 13.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 34.00 5.00 0.20
dm-3 0.00 0.20 0.00 12.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 64.00 10.00 0.20
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 0.80 0.00 13.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 17.00 2.50 0.20
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.00 1.40 0.00 58.40 0.00 0.00 0.00 0.00 0.00 0.14 0.00 0.00 41.71 4.29 0.60
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 1.00 0.00 32.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 32.80 4.00 0.40
dm-3 0.00 0.40 0.00 25.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 64.00 5.00 0.20
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.00 0.80 0.00 27.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 34.00 7.50 0.60
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 0.20 0.00 0.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 4.00 10.00 0.20
dm-3 0.00 0.20 0.00 12.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 64.00 10.00 0.20
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 0.40 0.00 13.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 34.00 5.00 0.20
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.00 9.00 0.00 300.00 0.00 2.00 0.00 18.18 0.00 0.09 0.00 0.00 33.33 1.11 1.00
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 9.00 0.00 264.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 29.33 0.67 0.60
dm-3 0.00 1.20 0.00 30.40 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 25.33 3.33 0.40
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 0.80 0.00 5.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 7.00 2.50 0.20
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.00 1.20 0.00 41.60 0.00 0.20 0.00 14.29 0.00 0.00 0.00 0.00 34.67 3.33 0.40
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 0.40 0.00 13.60 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 34.00 5.00 0.20
dm-3 0.00 0.20 0.00 12.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 64.00 10.00 0.20
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 0.80 0.00 15.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 19.00 2.50 0.20
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.00 2.00 0.00 62.40 0.00 0.80 0.00 28.57 0.00 0.10 0.00 0.00 31.20 3.00 0.60
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 1.40 0.00 32.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 22.86 2.86 0.40
dm-3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 1.40 0.00 30.40 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 21.71 1.43 0.20
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
nvme0n1 0.00 1.40 0.00 63.20 0.00 0.20 0.00 12.50 0.00 0.14 0.00 0.00 45.14 4.29 0.60
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 0.80 0.00 39.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 49.00 2.50 0.20
dm-3 0.00 0.20 0.00 12.80 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 64.00 10.00 0.20
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 0.60 0.00 11.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 18.67 3.33 0.20
#lscpu
Architecture: ppc64le
Byte Order: Little Endian
CPU(s): 48
On-line CPU(s) list: 0-47
Thread(s) per core: 8
Core(s) per socket: 6
Socket(s): 1
NUMA node(s): 1
Model: 2.0 (pvr 0080 0200)
Model name: POWER10 (architected), altivec supported
Hypervisor vendor: pHyp
Virtualization type: para
L1d cache: 32K
L1i cache: 48K
L2 cache: 1024K
L3 cache: 4096K
NUMA node0 CPU(s): 0-47
Physical sockets: 1
Physical chips: 4
Physical cores/chip: 6
# numactl --hardware
available: 1 nodes (0)
node 0 cpus: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
node 0 size: 379675 MB
node 0 free: 278579 MB
node distances:
node 0
0: 10
# numastat
node0
numa_hit 26144191
numa_miss 0
numa_foreign 0
interleave_hit 5660366
local_node 26144191
other_node 0
How can I identify the bottleneck and how can I fix this?
cat /proc/interrupts output - https://pastebin.com/wjqrYVZm
答案1
当您的应用程序(特别是 Java 应用程序)使用大量线程,并且某些内容(例如数据库操作或网络访问)强制应用程序进行序列化时,这实际上是一种典型模式。
如果大多数应用程序的线程正在等待无法完全表示为操作系统调度程序的等待状态的某些内容,那么所有线程都将排队等待处理,但一旦轮到它们,它们中的大多数将只检查它们要处理的内容。正在等待,并将放弃本轮的 CPU 时隙并再次回到执行队列。即使 CPU 实际上有足够的空闲时间,这也可能导致负载平均值增长到荒谬的水平。
这可能会导致自动监控(甚至操作人员!)恐慌,因为传统计算密集型工作负载上如此高的负载值将意味着系统无可救药地陷入困境,无法完成太多有用的工作。但由于有大量空闲 CPU 时间和大量可用内存,因此您的工作负载显然既不是计算密集型也不是内存密集型:它必须是 I/O 密集型。
Java VM 可能会加剧这样的情况:如果 JVM 级别的 Java 线程的等待状态无法直接映射到相应的操作系统级别的等待状态,那么即使 Java 代码“休眠”,该 Java 线程的底层线程也会处于休眠状态。 JVM需要不断检查唤醒条件,这也会导致如上所述的“短循环”。
在您的具体情况下,CPU 时间的前 10 个消费者中有 7 个是 user 的 Java 进程yarn
。您应该深入研究 JVM,调查每个 JVM 的各个线程平均正在做什么,并尝试找出它们正在等待什么。我的第一个猜测是某种数据库或网络操作正在阻止某些关键线程,然后其他线程无法继续,直到该关键线程可以前进。
不幸的是,这往往是只有应用程序开发人员才能真正解决的问题。他们可能必须找到能够以无锁方式完成所需任务的算法,和/或确保他们的数据库查询是合理的,并且数据库的结构对于应用程序对其提出的要求是最佳的。
一些有用的阅读:https://www.brendangregg.com/blog/2017-08-08/linux-load-averages.html