RHEL + 导致 await 非常高的根本原因是什么

RHEL + 导致 await 非常高的根本原因是什么

我们有 Kafka 集群服务器(11 台 Kafka 服务器)

每台服务器都是 32 核的 RHEL 7.6(物理 DELL 服务器)

Kafka 服务器包括 OS -dev253磁盘和 Kafka 磁盘 -dev8

我们sar -d可以看到以下细节

12:51:18 PM       DEV       tps  rd_sec/s  wr_sec/s  avgrq-sz  avgqu-sz     await     svctm     %util
12:51:28 PM    dev8-0     11.90      0.00    215.10     18.08     12.62   1062.13     68.29     81.27
12:51:28 PM   dev8-16     74.10    708.00  27900.80    386.08    305.52   3590.92     13.50    100.01
12:51:28 PM  dev253-0      5.90      0.00    140.90     23.88      5.65    811.25     52.37     30.90
12:51:28 PM  dev253-1      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
12:51:28 PM  dev253-2      5.00      0.00     68.60     13.72      7.29   1635.48    132.50     66.25
12:51:28 PM  dev253-3      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00

过去 6 小时内,高等待时间持续存在,磁盘 %util 也是如此

据我所知,await 是衡量给定 IO 在整个 IO 调度程序中所花费时间的标准。所以如果我们在这里看到数百毫秒,那就太糟糕了。

所以我们想知道如何避免这种情况,我想知道高效用是否与以下有关。

  1. 磁盘问题或磁盘健康问题
  2. 内核版本太旧,最好升级到最新内核版本。(如 RHEL 7.9)

我还从记忆的角度给出了其他细节

              total        used        free      shared  buff/cache   available
Mem:            376          46           1           4         328         323
Swap:             0           0           0

相关内容