FIO 基准测试 - 不一致且比预期慢：我的 RAID 配置错误吗？

Question

在对 ZFS 池进行基准测试时，您需要了解缓存和记录大小如何与您的工作负载交互：

您的fio命令不会跳过 linux 页面缓存（无--direct=1选项），也不会跳过 ZFS ARC。但是，由于两者之间的操作模式不同，您可能最终会倾向于使用普通文件系统 (XFS) 而不是 ZFS，反之亦然。为了减轻缓存效应，我建议您使用比 RAM 值大 2 倍的文件进行基准测试（即：如果有 24 GB 的 RAM，请使用 48 GB 的文件）。不是禁用缓存的 ZFS 基准测试（即primarycache=none：），作为 CoW 文件系统需求高缓存命中率可提供良好的性能（特别是在写入小于记录大小的块时，如下所示）；
您的随机读/写 IOP 和吞吐量将受到 ZFSrecordsize属性的严重影响，因为 ZFS 通常会传输完整的记录大小块（小文件除外，其中“小”表示 < 记录大小）。换句话说，在fio读取/写入 4K 块时，ZFS 实际上读取/写入 32K 块对于每个 4K 块请求fio。缓存可以（并且会）改变这个通用规则，但要点仍然存在：对于较大的记录大小，吞吐量饱和可能是一个问题。请注意，我是不是指出 32K 记录大小是不合理的（尽管我可能会使用 16K 来限制 SSD 的磨损）；但是，在评估基准测试结果时需要考虑到这一点；
我将重新启用直通磁盘的物理磁盘缓存，因为 ZFS 知道如何刷新其易失性缓存。但是，您需要检查您的 H730P 是否遵守直通磁盘的 ATA FLUSHes/FUA（它应该通过同步，但它的手册对这一点不清楚，而且我也没有实际的硬件可以尝试）；
您的RAIDPool阵列由机械硬盘组成，因此其随机读取性能将会很低（控制器缓存不会帮助您进行随机读取）。

综合考虑，我认为您的结果并不异常；相反，它们不代表有效的工作负载，并且部分被误解了。如果您真的想比较 ZFS 和 HWRAID+XFS，我建议您使用实际预期的工作负载（即：数据库 + 应用程序虚拟机执行一些有用的工作）进行测试，同时确保使用ThinLVM（而不是传统的 LVM）至少具有快速快照功能，有点类似于 ZFS 自己的快照/克隆功能。

但是，从某种意义上说，你可以避免做这些测试，因为结果是相当可预测的：

简单的 HWRAID+LVM+XFS 设置对于适合 Linux 页面缓存的数据集的顺序 IO 和随机读/写速度会更快：不受 CoW 的影响，它的开销比 ZFS 小得多；
在实际场景中，ZFS 设置会更快，因为 ARC 的抗扫描特性将确保最常用的数据始终保持缓存。此外，压缩和校验和是两个杀手级功能（要获得 HWRAID 的类似功能，您需要使用堆叠dm-integrity+ vdo+thinlvm设置，这本身会造成很大的性能损失）。

作为参考，我最近将配备 H710P + 12 个 10K RPM SAS 磁盘的 Dell R720xd 替换为更便宜的 SuperMicro 5029WTR，配备 2 个 SSD（用于启动和 L2ARC）+ 1 个 NVMe Optane（用于 SLOG）和 6 个 7.2K RPM SATA 磁盘。SuperMicro 系统的标称随机读取性能仅为 Dell 系统的 1/3，但由于 ARC/L2ARC 和压缩，其性能要好得多。

最后，虽然我完全理解使用传统 HWRAID+LVM+XFS 系统的动机，但我不会再使用它而不是将 ZFS 作为裸机的虚拟机管理程序（除非针对特定的工作负载，这些工作负载在使用 CoW 层时性能真的很差，或者需要极快的速度和 DirectIO - 请参阅 XFSdax选项）。

Answer 1

在对 ZFS 池进行基准测试时，您需要了解缓存和记录大小如何与您的工作负载交互：

您的fio命令不会跳过 linux 页面缓存（无--direct=1选项），也不会跳过 ZFS ARC。但是，由于两者之间的操作模式不同，您可能最终会倾向于使用普通文件系统 (XFS) 而不是 ZFS，反之亦然。为了减轻缓存效应，我建议您使用比 RAM 值大 2 倍的文件进行基准测试（即：如果有 24 GB 的 RAM，请使用 48 GB 的文件）。不是禁用缓存的 ZFS 基准测试（即primarycache=none：），作为 CoW 文件系统需求高缓存命中率可提供良好的性能（特别是在写入小于记录大小的块时，如下所示）；
您的随机读/写 IOP 和吞吐量将受到 ZFSrecordsize属性的严重影响，因为 ZFS 通常会传输完整的记录大小块（小文件除外，其中“小”表示 < 记录大小）。换句话说，在fio读取/写入 4K 块时，ZFS 实际上读取/写入 32K 块对于每个 4K 块请求fio。缓存可以（并且会）改变这个通用规则，但要点仍然存在：对于较大的记录大小，吞吐量饱和可能是一个问题。请注意，我是不是指出 32K 记录大小是不合理的（尽管我可能会使用 16K 来限制 SSD 的磨损）；但是，在评估基准测试结果时需要考虑到这一点；
我将重新启用直通磁盘的物理磁盘缓存，因为 ZFS 知道如何刷新其易失性缓存。但是，您需要检查您的 H730P 是否遵守直通磁盘的 ATA FLUSHes/FUA（它应该通过同步，但它的手册对这一点不清楚，而且我也没有实际的硬件可以尝试）；
您的RAIDPool阵列由机械硬盘组成，因此其随机读取性能将会很低（控制器缓存不会帮助您进行随机读取）。

综合考虑，我认为您的结果并不异常；相反，它们不代表有效的工作负载，并且部分被误解了。如果您真的想比较 ZFS 和 HWRAID+XFS，我建议您使用实际预期的工作负载（即：数据库 + 应用程序虚拟机执行一些有用的工作）进行测试，同时确保使用ThinLVM（而不是传统的 LVM）至少具有快速快照功能，有点类似于 ZFS 自己的快照/克隆功能。

但是，从某种意义上说，你可以避免做这些测试，因为结果是相当可预测的：

简单的 HWRAID+LVM+XFS 设置对于适合 Linux 页面缓存的数据集的顺序 IO 和随机读/写速度会更快：不受 CoW 的影响，它的开销比 ZFS 小得多；
在实际场景中，ZFS 设置会更快，因为 ARC 的抗扫描特性将确保最常用的数据始终保持缓存。此外，压缩和校验和是两个杀手级功能（要获得 HWRAID 的类似功能，您需要使用堆叠dm-integrity+ vdo+thinlvm设置，这本身会造成很大的性能损失）。

作为参考，我最近将配备 H710P + 12 个 10K RPM SAS 磁盘的 Dell R720xd 替换为更便宜的 SuperMicro 5029WTR，配备 2 个 SSD（用于启动和 L2ARC）+ 1 个 NVMe Optane（用于 SLOG）和 6 个 7.2K RPM SATA 磁盘。SuperMicro 系统的标称随机读取性能仅为 Dell 系统的 1/3，但由于 ARC/L2ARC 和压缩，其性能要好得多。

最后，虽然我完全理解使用传统 HWRAID+LVM+XFS 系统的动机，但我不会再使用它而不是将 ZFS 作为裸机的虚拟机管理程序（除非针对特定的工作负载，这些工作负载在使用 CoW 层时性能真的很差，或者需要极快的速度和 DirectIO - 请参阅 XFSdax选项）。

FIO 基准测试 - 不一致且比预期慢：我的 RAID 配置错误吗？

答案1

相关内容