为什么 mdadm 在同步挂载时写入速度慢得无法使用？

Question 1

提问者引述：

但Linux缓存仍然存在：
root@ubuntu:/mnt/raid6# dd if=/dev/zero of=delme bs=1M count=10
10+0 records in
10+0 records out
10485760 bytes (10 MB) copied, 0.00566339 s, 1.9 GB/s
要禁用 Linux 缓存，我们可以同步挂载文件系统：
mount -o remount,sync /mnt/raid6

这不太对……同步并不是像基准测试中那样简单地禁用缓存。它使每次写入都产生“同步”命令，这意味着将缓存全部刷新到磁盘。

这里有一个服务器，为了更好地解释：

$ dd if=/dev/zero of=testfile bs=1M count=500
500+0 records in
500+0 records out
524288000 bytes (524 MB) copied, 0.183744 s, 2.9 GB/s

$ dd if=/dev/zero of=testfile bs=1M count=500 conv=fdatasync
500+0 records in
500+0 records out
524288000 bytes (524 MB) copied, 5.22062 s, 100 MB/s

conv=fdatasync 只是表示写入后刷新，并告诉您包括刷新在内的时间。或者，您可以执行以下操作：

$ time ( dd if=/dev/zero of=testfile bs=1M count=500 ; sync )
500+0 records in
500+0 records out
524288000 bytes (524 MB) copied, 0.202687 s, 2.6 GB/s

real    0m2.950s
user    0m0.007s
sys     0m0.339s

然后根据 2.95 秒的实时时间（而不是上面的 0.2 秒）计算 MB/s。但这样比较丑陋，工作量也更大，因为 dd 打印的统计数据不包括同步。

如果您使用“同步”，您将刷新每个写入...可能这意味着每个块，这将运行非常慢。 “同步”应该只在非常严格的系统上使用，例如数据库，其中由于磁盘故障而导致单个事务的丢失是不可接受的（例如，如果我将十亿美元从我的银行账户转移到你的银行账户，并且系统崩溃，突然你有了钱，但我也有）。

这是我很久以前读过的另一种带有附加选项的解释。 http://romanrm.ru/en/dd-benchmark

还有一点需要注意：在我看来，您以这种方式进行的基准测试完全有效，尽管在许多其他人看来并不有效。但这不是实际测试。这是一个单线程顺序写入。如果您的实际用例是这样的，例如通过网络发送一些大文件，那么它可能是一个很好的基准。如果您的用例不同，例如 500 人同时上传小文件的 ftp 服务器，那么它就不是很好。

此外，为了获得最佳效果，您应使用 RAM 上随机生成的文件。它应该是随机数据，因为有些文件系统在输入零时会变得非常聪明。例如，在 Linux 上使用挂载在 /dev/ 上的 RAM 文件系统 tmpfs。它应该是 RAM fs，而不是直接使用 /dev/urandom，因为 /dev/random 真的很慢，而 /dev/urandom 更快（例如 75MB/s），但仍然比 hdd 慢。

dd if=/dev/urandom of=/dev/shm/randfile bs=1M count=500
dd if=/dev/shm/randfile bs=1M count=500 conv=fdatasync

Answer

提问者引述：

但Linux缓存仍然存在：
root@ubuntu:/mnt/raid6# dd if=/dev/zero of=delme bs=1M count=10
10+0 records in
10+0 records out
10485760 bytes (10 MB) copied, 0.00566339 s, 1.9 GB/s
要禁用 Linux 缓存，我们可以同步挂载文件系统：
mount -o remount,sync /mnt/raid6

这不太对……同步并不是像基准测试中那样简单地禁用缓存。它使每次写入都产生“同步”命令，这意味着将缓存全部刷新到磁盘。

这里有一个服务器，为了更好地解释：

$ dd if=/dev/zero of=testfile bs=1M count=500
500+0 records in
500+0 records out
524288000 bytes (524 MB) copied, 0.183744 s, 2.9 GB/s

$ dd if=/dev/zero of=testfile bs=1M count=500 conv=fdatasync
500+0 records in
500+0 records out
524288000 bytes (524 MB) copied, 5.22062 s, 100 MB/s

conv=fdatasync 只是表示写入后刷新，并告诉您包括刷新在内的时间。或者，您可以执行以下操作：

$ time ( dd if=/dev/zero of=testfile bs=1M count=500 ; sync )
500+0 records in
500+0 records out
524288000 bytes (524 MB) copied, 0.202687 s, 2.6 GB/s

real    0m2.950s
user    0m0.007s
sys     0m0.339s

然后根据 2.95 秒的实时时间（而不是上面的 0.2 秒）计算 MB/s。但这样比较丑陋，工作量也更大，因为 dd 打印的统计数据不包括同步。

如果您使用“同步”，您将刷新每个写入...可能这意味着每个块，这将运行非常慢。 “同步”应该只在非常严格的系统上使用，例如数据库，其中由于磁盘故障而导致单个事务的丢失是不可接受的（例如，如果我将十亿美元从我的银行账户转移到你的银行账户，并且系统崩溃，突然你有了钱，但我也有）。

这是我很久以前读过的另一种带有附加选项的解释。 http://romanrm.ru/en/dd-benchmark

还有一点需要注意：在我看来，您以这种方式进行的基准测试完全有效，尽管在许多其他人看来并不有效。但这不是实际测试。这是一个单线程顺序写入。如果您的实际用例是这样的，例如通过网络发送一些大文件，那么它可能是一个很好的基准。如果您的用例不同，例如 500 人同时上传小文件的 ftp 服务器，那么它就不是很好。

此外，为了获得最佳效果，您应使用 RAM 上随机生成的文件。它应该是随机数据，因为有些文件系统在输入零时会变得非常聪明。例如，在 Linux 上使用挂载在 /dev/ 上的 RAM 文件系统 tmpfs。它应该是 RAM fs，而不是直接使用 /dev/urandom，因为 /dev/random 真的很慢，而 /dev/urandom 更快（例如 75MB/s），但仍然比 hdd 慢。

dd if=/dev/urandom of=/dev/shm/randfile bs=1M count=500
dd if=/dev/shm/randfile bs=1M count=500 conv=fdatasync

Question 2

由于同步写入强制奇偶校验计算对磁盘造成影响，因此性能急剧下降。

一般来说，计算和写入奇偶校验是一个相对较慢的过程，尤其是使用 RAID 6 时——在您的例子中，md 不仅必须将数据分割成四个块，然后还要为每个条带计算两个奇偶校验块。为了提高性能，RAID 实现（包括 md）将在内存中缓存最近使用的条带，以便将要写入的数据与现有数据进行比较，并在写入时快速重新计算奇偶校验。如果将新数据写入缓存的条带，它可以比较、分割和重新计算奇偶校验，而无需接触磁盘，然后稍后刷新它。您创建了一种 md 总是错过缓存的情况，在这种情况下，它必须从磁盘读取条带，比较数据，分割新数据，重新计算奇偶校验，然后将新条带直接刷新到磁盘。缓存命中时需要从磁盘零次读取和写入，现在需要六次读取和六次写入每写一条条纹。

诚然，您观察到的性能差异是巨大的（1.9GB/s 对 449KB/s），但我认为这都是由于 md 为维护数据完整性所做的工作量造成的。

这种性能下降可能会因磁盘的排列方式而加剧……如果将它们全部放在一个控制器上，那么过多的读写操作将导致性能陷入停滞。

Answer

由于同步写入强制奇偶校验计算对磁盘造成影响，因此性能急剧下降。

一般来说，计算和写入奇偶校验是一个相对较慢的过程，尤其是使用 RAID 6 时——在您的例子中，md 不仅必须将数据分割成四个块，然后还要为每个条带计算两个奇偶校验块。为了提高性能，RAID 实现（包括 md）将在内存中缓存最近使用的条带，以便将要写入的数据与现有数据进行比较，并在写入时快速重新计算奇偶校验。如果将新数据写入缓存的条带，它可以比较、分割和重新计算奇偶校验，而无需接触磁盘，然后稍后刷新它。您创建了一种 md 总是错过缓存的情况，在这种情况下，它必须从磁盘读取条带，比较数据，分割新数据，重新计算奇偶校验，然后将新条带直接刷新到磁盘。缓存命中时需要从磁盘零次读取和写入，现在需要六次读取和六次写入每写一条条纹。

诚然，您观察到的性能差异是巨大的（1.9GB/s 对 449KB/s），但我认为这都是由于 md 为维护数据完整性所做的工作量造成的。

这种性能下降可能会因磁盘的排列方式而加剧……如果将它们全部放在一个控制器上，那么过多的读写操作将导致性能陷入停滞。

Question 3

您能告诉我们您的 6 个磁盘是如何组成的吗？在我看来，它们好像是 SAN/DAS 的任何目标的一部分 - 可能由相同的物理磁盘组成（因此，如果所有 6 个磁盘都位于同一个磁盘上，与单个磁盘相比，这将使性能降低 6 个）。

请查看此 anwerleaks.com 链接。

那么您是如何设置位图的？

Answer

您能告诉我们您的 6 个磁盘是如何组成的吗？在我看来，它们好像是 SAN/DAS 的任何目标的一部分 - 可能由相同的物理磁盘组成（因此，如果所有 6 个磁盘都位于同一个磁盘上，与单个磁盘相比，这将使性能降低 6 个）。

请查看此 anwerleaks.com 链接。

那么您是如何设置位图的？

为什么 mdadm 在同步挂载时写入速度慢得无法使用？

答案1

答案2

答案3

相关内容