如何使用 mdadm + luks + lvm 提高 RAID 5 的速度

Question 1

糟糕的录制表现源于不同的因素：

机械磁盘在随机读写 IO 方面表现非常糟糕。要发现多么糟糕可以，只需附加--sync=1到你的fio命令即可（简而言之：它们是难以置信糟糕，至少与适当的 BBU RAID 控制器或断电保护 SSD 相比）；
由于条带读取/修改/写入，RAID5 具有固有的写入损失。此外，强烈建议避免出于安全原因，请勿将其安装在多 TB 机械磁盘上。如果有 4 个磁盘，请认真考虑使用 RAID10；
LUKS 提供基于软件的全盘加密，不可避免地会对读取和写入造成（重大）损失；
使用 BTRFS，LVM 完全没有必要。虽然基于 LVM 的胖卷本身不会以任何有意义的方式损害性能，但您仍然会插入另一个 IO 层并面临（更多）对齐问题；
最后，BTRFS 本身并不是特别快。尤其是你的慢速顺序读取可以追溯到 BTRFS 可怕的碎片（因为它是 CoW和强制执行 4K 粒度 - 作为比较，为了从 ZFS 获得良好的性能，在使用机械磁盘时通常应该选择 64K-128K 记录）。

为了进行基准性能比较，我强烈建议重新执行 IO 堆栈，测量每一步的随机和顺序读/写速度。换句话说：

创建 RAID10 阵列并dd在fio原始阵列（没有文件系统）上运行；
如果确实需要全盘加密，请使用 LUKS 创建加密设备并在原始加密设备上重新运行dd+ fio（同样，没有文件系统）。与之前的结果进行比较，以了解其对性能的影响；
尝试两个都XFS 和 BTRFS（运行常规dd+fio快速基准）以了解两种不同的文件系统的行为方式。如果 BTRFS 太慢，请尝试将其替换为叶酸和 XFS（但请记住，在这种情况下，您将丢失用户数据校验和，因此您还需要另一层 -完整性- 本身会造成显著的性能损失）。

如果这一切看起来一团糟，好吧，事实确实如此。通过执行上述所有操作，您只是在刮擦存储性能：必须考虑实际的应用程序行为（而不是完全连续dd或纯随机的fio结果）、缓存命中率、IO 模式对齐等。但是嘿 -很少比没有什么，所以让我们从一些基础的东西开始。

Answer

糟糕的录制表现源于不同的因素：

机械磁盘在随机读写 IO 方面表现非常糟糕。要发现多么糟糕可以，只需附加--sync=1到你的fio命令即可（简而言之：它们是难以置信糟糕，至少与适当的 BBU RAID 控制器或断电保护 SSD 相比）；
由于条带读取/修改/写入，RAID5 具有固有的写入损失。此外，强烈建议避免出于安全原因，请勿将其安装在多 TB 机械磁盘上。如果有 4 个磁盘，请认真考虑使用 RAID10；
LUKS 提供基于软件的全盘加密，不可避免地会对读取和写入造成（重大）损失；
使用 BTRFS，LVM 完全没有必要。虽然基于 LVM 的胖卷本身不会以任何有意义的方式损害性能，但您仍然会插入另一个 IO 层并面临（更多）对齐问题；
最后，BTRFS 本身并不是特别快。尤其是你的慢速顺序读取可以追溯到 BTRFS 可怕的碎片（因为它是 CoW和强制执行 4K 粒度 - 作为比较，为了从 ZFS 获得良好的性能，在使用机械磁盘时通常应该选择 64K-128K 记录）。

为了进行基准性能比较，我强烈建议重新执行 IO 堆栈，测量每一步的随机和顺序读/写速度。换句话说：

创建 RAID10 阵列并dd在fio原始阵列（没有文件系统）上运行；
如果确实需要全盘加密，请使用 LUKS 创建加密设备并在原始加密设备上重新运行dd+ fio（同样，没有文件系统）。与之前的结果进行比较，以了解其对性能的影响；
尝试两个都XFS 和 BTRFS（运行常规dd+fio快速基准）以了解两种不同的文件系统的行为方式。如果 BTRFS 太慢，请尝试将其替换为叶酸和 XFS（但请记住，在这种情况下，您将丢失用户数据校验和，因此您还需要另一层 -完整性- 本身会造成显著的性能损失）。

如果这一切看起来一团糟，好吧，事实确实如此。通过执行上述所有操作，您只是在刮擦存储性能：必须考虑实际的应用程序行为（而不是完全连续dd或纯随机的fio结果）、缓存命中率、IO 模式对齐等。但是嘿 -很少比没有什么，所以让我们从一些基础的东西开始。

Question 2

这是一个老问题，但我遇到了同样的问题并找到了正确的答案这里。希望这能帮助到其他人。

总而言之，您需要增加stripe_cache_size。这可以通过以下方式完成：

echo 16384 > /sys/block/md0/md/stripe_cache_size

确保指向正确的 mdadm 卷。您可以尝试上面链接的答案中讨论的各种值，我使用这个获得了最好的结果。

Answer

这是一个老问题，但我遇到了同样的问题并找到了正确的答案这里。希望这能帮助到其他人。

总而言之，您需要增加stripe_cache_size。这可以通过以下方式完成：

echo 16384 > /sys/block/md0/md/stripe_cache_size

确保指向正确的 mdadm 卷。您可以尝试上面链接的答案中讨论的各种值，我使用这个获得了最好的结果。

Question 3

简而言之：我认为你的问题可能是你的基准测试使用的是随机写入比 RAID 块大小小得多。

您在使用系统时是否注意到了性能问题？或者，只是基准测试结果看起来很糟糕？对于具有大 512K 块的 RAID 5，16K 随机写入基准测试接近最坏情况。

RAID 5 有一个必须与数据一起更新的奇偶校验块。如果您有一个连续的工作负载，内核可以将其分解为 512K 写入，那么您只需计算新的奇偶校验信息，然后写出数据块和奇偶校验块。一次写入相当于两次写出。

但是，对于比块大小小得多的 16K 写入，您必须先读取旧数据和旧奇偶校验，然后计算新奇偶校验信息，然后写出新数据和奇偶校验。这就是读-读-写-写。一次写入相当于四次 I/O。对于随机写入，即使是世界上最好的 RAID 控制器也无法预测要缓存哪些块。

如果您使用数组来存储大型文件，那么您很幸运：您只是使用了错误的基准来评估其性能。如果您在基准中randwrite简单地更改write为按顺序写入，那么它应该会变得更好！

但是，如果您的工作负载确实由更多随机、小写入组成，那么您将不得不对阵列进行一些更改。4 磁盘 RAID 10 更适合您。但这仍然是旋转介质。它不会震撼您的世界。我猜想 RAID 10 的性能应该是您现在的 2 倍到 3 倍，大约 275 到 400 IOPS，也许在该基准上为 4MiB/s 到 6MiB/s？

至于使用 SSD 进行缓存，也许使用 bcache 之类的东西，您就可以消除冗余。考虑使用两个 SSD 的 RAID 1 进行缓存？考虑到这些驱动器的速度，您肯定不需要 NVMe。SATA 就足够了。

（顺便说一句，不要担心分区与原始设备。这没什么区别。就我个人而言，我不使用分区。）

Answer