如何重现这些结果 - 重要细节

Question

这是内核版本 5.0 中的更改的结果：

块：删除part_round_stats和切换到不太精确的计数

我们想要转换为每个 cpu 的 in_flight 计数器。

函数part_round_stats每个jiffy都需要in_flight计数器，每个jiffy对所有percpu变量求和的成本太高，所以必须删除它。 part_round_stats 用于计算两个计数器 - time_in_queue 和 io_ticks。

time_in_queue 可以在没有part_round_stats 的情况下计算，通过添加I/O 结束时I/O 的持续时间（该值几乎与之前计算的值一样精确，除了不计算正在进行的I/O 的时间）。

io_ticks 可以通过在 I/O 开始或结束且 jiffies 值发生变化时增加该值来近似。如果 I/O 花费的时间少于一瞬间，则该值与之前计算的值一样精确。如果 I/O 花费的时间超过一瞬间，io_ticks 可能会漂移到先前计算的值之后。

(io_ticks用于部分统计显示()，提供内核IO统计对于“字段 10 -- 执行 I/O 所花费的毫秒数”。）

这很好地解释了我的结果。在 Fedora 内核配置中，“瞬间“是 1 毫秒。我预计提交的大型读取 IOdd可能会等待超过一两个 jiffies。特别是在我的系统上，它使用老式机械 HDD。

当我返回到之前的内核系列 4.20.x 时，它显示了正确的磁盘利用率：

$ uname -r
4.20.15-200.fc29.x86_64
$ atopsar -d 5
...
13:27:19  disk           busy read/s KB/read  writ/s KB/writ avque avserv _dsk_
13:28:49  sda             98%  149.4  1024.0    13.0     5.3   2.2   6.04 ms
13:28:54  sda             98%  146.0  1024.0     7.2     5.7   1.5   6.38 ms

cfq这个旧内核默认使用传统的单队列块层和IO 调度程序。使用IO调度器时结果也是一样的deadline。

更新：从内核 5.7 开始，这个近似值被调整。问题中的命令再次显示磁盘利用率为 100%。对于一些更复杂的工作负载，新的近似值预计会崩溃（尽管我还没有注意到）。

block/diskstats：慢速磁盘的 io_ticks 更准确的近似值

目前，如果 jiffies 计数器已更改，则 io_ticks 的近似值是在请求的每个开始和结束处加一。这对于短于一瞬间的请求或者其中一个请求在每一瞬间开始/结束的情况来说非常有效。

如果磁盘一次只执行一个请求，并且它们长于两个 jiffies，则仅计算第一个和最后一个 jiffies。

修复很简单：在请求结束时，将自上次更新以来传递的 io_ticks jiffy 添加到 io_ticks 中，而不仅仅是一个 jiffy。

示例：普通硬盘执行随机读取 4k 请求的时间约为 12ms。

fio --name=test --filename=/dev/sdb --rw=randread --direct=1 --runtime=30 & iostat -x 10 sdb

注意补丁前后 iostat 的“%util”8,43% -> 99,99% 的变化：

前：
Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb               0,00     0,00   82,60    0,00   330,40     0,00     8,00     0,96   12,09   12,09    0,00   1,02   8,43
后：
Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb               0,00     0,00   82,50    0,00   330,00     0,00     8,00     1,00   12,10   12,10    0,00  12,12  99,99
现在 io_ticks 不会减少请求开始和结束之间的时间，但对于队列深度 > 1 ，相邻开始之间的一些 I/O 时间可能会丢失。

对于负载估计，“%util”不如平均队列长度有用，但它清楚地显示磁盘队列完全为空的频率。

修复：5b18b5a（“阻止：删除part_round_stats并切换到不太精确的计数”）
签署人：Konstantin Khlebnikov <[电子邮件受保护]>
审稿人：雷鸣 <[电子邮件受保护]>
签署人：Jens Axboe <[电子邮件受保护]>

Answer 1

这是内核版本 5.0 中的更改的结果：

块：删除part_round_stats和切换到不太精确的计数

我们想要转换为每个 cpu 的 in_flight 计数器。

函数part_round_stats每个jiffy都需要in_flight计数器，每个jiffy对所有percpu变量求和的成本太高，所以必须删除它。 part_round_stats 用于计算两个计数器 - time_in_queue 和 io_ticks。

time_in_queue 可以在没有part_round_stats 的情况下计算，通过添加I/O 结束时I/O 的持续时间（该值几乎与之前计算的值一样精确，除了不计算正在进行的I/O 的时间）。

io_ticks 可以通过在 I/O 开始或结束且 jiffies 值发生变化时增加该值来近似。如果 I/O 花费的时间少于一瞬间，则该值与之前计算的值一样精确。如果 I/O 花费的时间超过一瞬间，io_ticks 可能会漂移到先前计算的值之后。

(io_ticks用于部分统计显示()，提供内核IO统计对于“字段 10 -- 执行 I/O 所花费的毫秒数”。）

这很好地解释了我的结果。在 Fedora 内核配置中，“瞬间“是 1 毫秒。我预计提交的大型读取 IOdd可能会等待超过一两个 jiffies。特别是在我的系统上，它使用老式机械 HDD。

当我返回到之前的内核系列 4.20.x 时，它显示了正确的磁盘利用率：

$ uname -r
4.20.15-200.fc29.x86_64
$ atopsar -d 5
...
13:27:19  disk           busy read/s KB/read  writ/s KB/writ avque avserv _dsk_
13:28:49  sda             98%  149.4  1024.0    13.0     5.3   2.2   6.04 ms
13:28:54  sda             98%  146.0  1024.0     7.2     5.7   1.5   6.38 ms

cfq这个旧内核默认使用传统的单队列块层和IO 调度程序。使用IO调度器时结果也是一样的deadline。

更新：从内核 5.7 开始，这个近似值被调整。问题中的命令再次显示磁盘利用率为 100%。对于一些更复杂的工作负载，新的近似值预计会崩溃（尽管我还没有注意到）。

block/diskstats：慢速磁盘的 io_ticks 更准确的近似值

目前，如果 jiffies 计数器已更改，则 io_ticks 的近似值是在请求的每个开始和结束处加一。这对于短于一瞬间的请求或者其中一个请求在每一瞬间开始/结束的情况来说非常有效。

如果磁盘一次只执行一个请求，并且它们长于两个 jiffies，则仅计算第一个和最后一个 jiffies。

修复很简单：在请求结束时，将自上次更新以来传递的 io_ticks jiffy 添加到 io_ticks 中，而不仅仅是一个 jiffy。

示例：普通硬盘执行随机读取 4k 请求的时间约为 12ms。

fio --name=test --filename=/dev/sdb --rw=randread --direct=1 --runtime=30 & iostat -x 10 sdb

注意补丁前后 iostat 的“%util”8,43% -> 99,99% 的变化：

前：
Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb               0,00     0,00   82,60    0,00   330,40     0,00     8,00     0,96   12,09   12,09    0,00   1,02   8,43
后：
Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb               0,00     0,00   82,50    0,00   330,00     0,00     8,00     1,00   12,10   12,10    0,00  12,12  99,99
现在 io_ticks 不会减少请求开始和结束之间的时间，但对于队列深度 > 1 ，相邻开始之间的一些 I/O 时间可能会丢失。

对于负载估计，“%util”不如平均队列长度有用，但它清楚地显示磁盘队列完全为空的频率。

修复：5b18b5a（“阻止：删除part_round_stats并切换到不太精确的计数”）
签署人：Konstantin Khlebnikov <[电子邮件受保护]>
审稿人：雷鸣 <[电子邮件受保护]>
签署人：Jens Axboe <[电子邮件受保护]>

如何重现这些结果 - 重要细节

附加测试

如何重现这些结果 - 重要细节

注意最后一个测试，即运行`dd` 没有 `iflag=direct`

这精确的第一次测试的结果很难重现。

答案1

相关内容

附加测试

如何重现这些结果 - 重要细节

注意最后一个测试，即运行dd 没有 iflag=direct

这精确的第一次测试的结果很难重现。

答案1

相关内容

注意最后一个测试，即运行`dd` 没有 `iflag=direct`