我们有 Kafka 集群服务器(11 台 Kafka 服务器)
每台服务器都是 32 核的 RHEL 7.6(物理 DELL 服务器)
Kafka 服务器包括 OS -dev253
磁盘和 Kafka 磁盘 -dev8
我们sar -d
可以看到以下细节
12:51:18 PM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util
12:51:28 PM dev8-0 11.90 0.00 215.10 18.08 12.62 1062.13 68.29 81.27
12:51:28 PM dev8-16 74.10 708.00 27900.80 386.08 305.52 3590.92 13.50 100.01
12:51:28 PM dev253-0 5.90 0.00 140.90 23.88 5.65 811.25 52.37 30.90
12:51:28 PM dev253-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
12:51:28 PM dev253-2 5.00 0.00 68.60 13.72 7.29 1635.48 132.50 66.25
12:51:28 PM dev253-3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
过去 6 小时内,高等待时间持续存在,磁盘 %util 也是如此
据我所知,await 是衡量给定 IO 在整个 IO 调度程序中所花费时间的标准。所以如果我们在这里看到数百毫秒,那就太糟糕了。
所以我们想知道如何避免这种情况,我想知道高效用是否与以下有关。
- 磁盘问题或磁盘健康问题
- 内核版本太旧,最好升级到最新内核版本。(如 RHEL 7.9)
我还从记忆的角度给出了其他细节
total used free shared buff/cache available
Mem: 376 46 1 4 328 323
Swap: 0 0 0