随机不间断睡眠过程/IO 峰值

随机不间断睡眠过程/IO 峰值

从上周开始,我遇到了一个问题,各种进程会进入不可中断的睡眠状态,每次持续约 5-10 分钟,然后自行解除阻塞,就像什么事都没发生过一样。这种情况每小时可能发生几次,也可能每天只发生几次。

我正在运行内核为 4.20.3-arch1-1-ARCH 的 Arch,并且在 RAID 1 阵列中有两个硬盘驱动器,文件系统使用 LUKS 加密。

运行后ps,我发现以下进程在这些 IO 峰值期间通常处于不间断睡眠状态:

md125_raid1
dmcrypt_write/2
jbd2/dm-1-8
kworker/u16:2+flush-253:1

iostat尖峰期间的输出:

Device            r/s     w/s     rkB/s     wkB/s   rrqm/s   wrqm/s  %rrqm  %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
sda              0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
sdc              0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
sdb              0.00    1.50      0.00      3.00     0.00     0.00   0.00   0.00    0.00    1.67   0.00     0.00     2.00   0.00   0.00
sdd              0.00    1.50      0.00      3.00     0.00     0.00   0.00   0.00    0.00    2.67   0.00     0.00     2.00   0.00   0.00
md127            0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
md126            0.00    0.50      0.00      2.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     4.00   0.00   0.00
md125            0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
sde              0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
sdf              0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
md124            0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
dm-0             0.00    0.50      0.00      2.00     0.00     0.00   0.00   0.00    0.00   26.00   0.01     0.00     4.00  26.00   1.30
dm-1             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00  51.00     0.00     0.00   0.00 100.00
dm-2             0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
loop0            0.00    0.00      0.00      0.00     0.00     0.00   0.00   0.00    0.00    0.00   0.00     0.00     0.00   0.00   0.00
  • dm-1始终达到 100% 的利用率。
  • 内核日志中没有相关信息。
  • 两个磁盘都是约 6 个月前创建的,并且通过了 SMART 自检。

我真的不知道接下来该怎么办。似乎不是某个特定程序导致了这个问题,而是内核或 RAID/LUKS 代码中的某个问题。我还能做些什么来进一步调试导致这个问题的原因吗?

相关内容