Linux 软件 RAID 5 随机小写入性能极差 - 重新配置建议

Question 1

很抱歉，除非控制器有足够的缓存，否则 RAID 5 总是不适合小写入。校验和需要大量的读取和写入。

最好的选择是硬件控制器上的 Raid 10 - 为了获得真正的惊人性能，可以使用类似 Adaptec 的东西，并将一半驱动器设为 SSD....这样，所有读取都将转到 SSD，这将为您提供大量性能，尽管写入显然必须分开。不确定 Linux 软件是否可以做到这一点。

其余的完全取决于您的使用模式，而且基本上 - 您没有告诉我们有关这方面的任何信息。

Answer

很抱歉，除非控制器有足够的缓存，否则 RAID 5 总是不适合小写入。校验和需要大量的读取和写入。

最好的选择是硬件控制器上的 Raid 10 - 为了获得真正的惊人性能，可以使用类似 Adaptec 的东西，并将一半驱动器设为 SSD....这样，所有读取都将转到 SSD，这将为您提供大量性能，尽管写入显然必须分开。不确定 Linux 软件是否可以做到这一点。

其余的完全取决于您的使用模式，而且基本上 - 您没有告诉我们有关这方面的任何信息。

Question 2

选项 A。）您需要空间吗？您可以将 1TB 驱动器“短行程”至 500GB，并运行 8 磁盘 RAID10 阵列（获得 2TB 可用空间）。由于您没有提到，我假设它们都是 7200rpm 主轴，因此您每秒的随机写入次数约为 400 次。

这是您的最佳性能选择，其他任何选择都需要更好的硬件或 raid0。

选项 B.) 一个 1TB 驱动器的 4 磁盘 RAID10 阵列，另一个 500GB 驱动器的 4 磁盘阵列，简单的 lvm 跨接。这样，一个驱动器上就有 200 个随机写入 iops，另一个驱动器上也有 200 个随机写入 iops。

选项 C.) 所有驱动器的前 500GB 组成一个 8 磁盘 RAID10 阵列，然后 1TB 驱动器的“后”500GB 组成一个 4 磁盘 RAID10 阵列，lvm 跨接。当您在 VG 的 8 磁盘集部分时，这将提供峰值 400 随机写入 iops。

您并没有告诉我们有关该应用程序的任何信息，如果它是一个连续的日志写入，那么最好使用 C。如果它分解为至少两个并行的写入线程，我更喜欢 B 的简单性（并且不要将它们 lvm 在一起）。

Answer

选项 A。）您需要空间吗？您可以将 1TB 驱动器“短行程”至 500GB，并运行 8 磁盘 RAID10 阵列（获得 2TB 可用空间）。由于您没有提到，我假设它们都是 7200rpm 主轴，因此您每秒的随机写入次数约为 400 次。

这是您的最佳性能选择，其他任何选择都需要更好的硬件或 raid0。

选项 B.) 一个 1TB 驱动器的 4 磁盘 RAID10 阵列，另一个 500GB 驱动器的 4 磁盘阵列，简单的 lvm 跨接。这样，一个驱动器上就有 200 个随机写入 iops，另一个驱动器上也有 200 个随机写入 iops。

选项 C.) 所有驱动器的前 500GB 组成一个 8 磁盘 RAID10 阵列，然后 1TB 驱动器的“后”500GB 组成一个 4 磁盘 RAID10 阵列，lvm 跨接。当您在 VG 的 8 磁盘集部分时，这将提供峰值 400 随机写入 iops。

您并没有告诉我们有关该应用程序的任何信息，如果它是一个连续的日志写入，那么最好使用 C。如果它分解为至少两个并行的写入线程，我更喜欢 B 的简单性（并且不要将它们 lvm 在一起）。

Question 3

除了配置 RAID 和 LVM 之外，您是否尝试过不同的磁盘 I/O 提升器？CFQ如今，这似乎是许多发行版的默认设置，对于某些工作负载来说，它没问题。对我来说，它曾多次给我带来严重困扰 —— 例如，一台备份服务器备份了大约 20 台主机，总共约 3000 万个文件和几 TB 的数据，速度出奇地慢，I/O 占用了大量时间。

在我切换到最后期限调度程序，该服务器上的所有操作都比以前快了大约两倍。好吧，在我的例子中，文件系统是（现在仍然是...）XFS，过去 XFS+CFQ 组合有其缺陷，但无论如何值得一试。

如果要动态更改 I/O 升降机：

echo deadline >/sys/block/yourdisk/queue/scheduler

如果你想使该更改永久生效，请添加到核心在您的 grub.conf 中行--或者您使用的任何引导加载程序--参数elevator=deadline。

您还可以尝试anticipatory和noop调度程序。

Answer

除了配置 RAID 和 LVM 之外，您是否尝试过不同的磁盘 I/O 提升器？CFQ如今，这似乎是许多发行版的默认设置，对于某些工作负载来说，它没问题。对我来说，它曾多次给我带来严重困扰 —— 例如，一台备份服务器备份了大约 20 台主机，总共约 3000 万个文件和几 TB 的数据，速度出奇地慢，I/O 占用了大量时间。

在我切换到最后期限调度程序，该服务器上的所有操作都比以前快了大约两倍。好吧，在我的例子中，文件系统是（现在仍然是...）XFS，过去 XFS+CFQ 组合有其缺陷，但无论如何值得一试。

如果要动态更改 I/O 升降机：

echo deadline >/sys/block/yourdisk/queue/scheduler

如果你想使该更改永久生效，请添加到核心在您的 grub.conf 中行--或者您使用的任何引导加载程序--参数elevator=deadline。

您还可以尝试anticipatory和noop调度程序。

Question 4

从本质上来说，Raid 5 不适合小规模写入，因为它必须先读取每个驱动器上的每个 raid 块，然后才能写入磁盘。硬件控制器通过使用电池支持的缓存来解决这个问题，从而避免等待磁盘寻道。这样的缓存将有助于所有小规模写入，而不仅仅是在 Raid 5 上，但它在那里特别有用。

不过，可能有一个解决方案：尝试切换文件系统以日志记录数据：

tune2fs -o journal_data /dev/md0

（这显然适用于 ext3）

您可能还想增加日志的大小。使用另一台设备进行日志记录可以加快速度。通常，如果您的系统有 Raid 1，数据有大型 Raid 5，则在第一个上保留一个卷；这样提交日志的速度会快得多，因为它只需要一半的寻道次数。（有关如何执行此操作的更多信息，请参阅 man tune2fs）

重要提示：我还没有测试过。它应该可以工作，但也可能不会带来理论上那么多的好处。

Answer