生成大量脏页阻碍同步写入

Question 1

有几件事我很想知道结果。

首先创建大文件，fallocate然后写入其中。
将 dirty_background_bytes 设置为低得多（例如 1GiB）并使用 CFQ 作为调度程序。请注意，在此测试中，在大型运行的中间运行小型运行可能是一种更好的表现。

因此，对于选项 1，您可能会发现您避免了所有语义data=ordered，因为块分配已经完成（并且很快），因为它是通过预先分配的fallocate，并且元数据是在写入之前设置的。测试这是否真的如此会很有用。不过我有信心它会提高性能。

对于选项 2，您可以多使用 ionice。Deadline 明显比 CFQ 更快，尽管 CFQ 尝试按进程组织 IO，因此您会发现它能在每个进程中更好地共享 IO。

我在某处读到（现在找不到来源）dirty_background_ratio 将阻止对单个提交进程的写入（实际上使大进程变慢）以防止一个进程使所有其他进程都挨饿。鉴于我现在能找到的有关该行为的信息很少，我对它能否奏效不太有信心。

哦：我应该指出，这fallocate取决于范围，并且您需要使用 ext4。

Answer

有几件事我很想知道结果。

首先创建大文件，fallocate然后写入其中。
将 dirty_background_bytes 设置为低得多（例如 1GiB）并使用 CFQ 作为调度程序。请注意，在此测试中，在大型运行的中间运行小型运行可能是一种更好的表现。

因此，对于选项 1，您可能会发现您避免了所有语义data=ordered，因为块分配已经完成（并且很快），因为它是通过预先分配的fallocate，并且元数据是在写入之前设置的。测试这是否真的如此会很有用。不过我有信心它会提高性能。

对于选项 2，您可以多使用 ionice。Deadline 明显比 CFQ 更快，尽管 CFQ 尝试按进程组织 IO，因此您会发现它能在每个进程中更好地共享 IO。

我在某处读到（现在找不到来源）dirty_background_ratio 将阻止对单个提交进程的写入（实际上使大进程变慢）以防止一个进程使所有其他进程都挨饿。鉴于我现在能找到的有关该行为的信息很少，我对它能否奏效不太有信心。

哦：我应该指出，这fallocate取决于范围，并且您需要使用 ext4。

Question 2

我正在回答我自己的问题，但如果有人能提出更好的建议，我将非常感激:)

测试结束时有 4GB 脏内存，我得出结论，上面的测试中没有调用 IO 调度程序。对吗？

这完全是错误的。脏内存量并不是一个好的指标。只需运行 iostat 并检查在 dd oflag=sync 运行时是否发生大量写入，就可以轻松证明这一点。

有没有办法深入调查被阻止的内容？有什么有趣的计数器值得关注吗？

perf record -e 'jbd:*' -e 'block:*' -ag

对于较新的内核，用 jbd2 替换 jbd。

您对争论的根源有什么想法吗？

事实上对于具有数据=有序，日志线程负责刷新磁盘上的数据。刷新按写入的顺序进行。刷新频率可以使用犯罪挂载文件系统时的选项。

一个有趣的实验：使用 commit=60 挂载文件系统并禁用写回线程。运行第一个 dd 时，它在 2 秒内完成，并且 iostat 显示没有生成任何 IO！

当使用 oflag=sync 运行第二个 dd 时，第一个 dd 生成的所有 IO 都将刷新到磁盘。

我们正在考虑要么降低 dirty_ratio 值，要么以同步模式执行第一个 dd。

记录显示这两种解决方案都取得了良好的效果。另一个好主意是将这些大文件放在单独的文件系统上（可能使用 data=writeback 安装）

这与 SLES11 或更早的内核没有特别联系。我尝试过的所有内核都出现了同样的行为。

Answer