在高度冗余的计算机集群中，硬件 RAID1 是否比软件 RAID 具有显著优势？

Question

在单台服务器上，我更喜欢软件 RAID 而不是硬件 RAID，因为硬件 RAID 迫使管理员采取预防措施，以防 RAID 控制器出现硬件故障。这通常需要储备并定期测试备用 RAID 控制器。

不过，在您的设置中，我假设冗余是在节点级别，而不是在磁盘级别。如果某个节点因任何原因（CPU、电源、RAID 控制器等）发生故障，该节点将脱离集群，并尽快用新节点或修复后的节点替换，然后数据将从集群重建，而不是从 RAID 重建。话虽如此，问题是，您是否需要 RAID！

您可能会说：“我的数据库大部分是读取的，RAID 1 大约会使吞吐量翻倍，因为读取可以分布在两个磁盘之间”。但请注意，磁盘故障后更换该磁盘并重建 RAID 会暂时将该节点上的读取率降低到单个磁盘级别。如果您的数据库无法通过向慢速节点提供较少的流量来在不平等的节点之间合理地共享流量，那么数据库可以处理的整个负载将下降到正常值的一半！这可能会迫使您将发生磁盘故障的节点完全从数据库中移除，只要它忙于其内部 RAID 重建。但这会使 RAID 几乎毫无用处。

另一种方法是不使用任何 RAID，而是让任何节点两次加入数据库，每个磁盘一次。这会给 CPU 带来更多负担，但如果磁盘是您的限制因素，那么谁会关心 CPU 时间呢？如果磁盘发生故障，该特定半节点将脱机，并在更换磁盘后再次加入。因此，负载将公平地分担到所有磁盘。

如果写入负载较高，则独立磁盘解决方案将提供比 RAID 1 两倍的写入吞吐量。

因此，基本上，仍然考虑 BBU 的唯一原因是，如果您的延迟要求非常窄，以至于您无法等待数据物理进入磁盘。如果发生电源故障，BBU 将确保数据仍被写入。但也有替代方案，即 SSD 缓存模块，如 dm-cache 或 bcache。在写回模式下，它们首先将数据写入 SSD，这比写入磁盘要快得多，然后已经提交写入。即使在断电后，它们也会正确地从 SSD 读取块。dm-cache 和 bcache 随附所有最新的 Linux 内核，小型（如 64 或 128 GB）服务器级（！！）SSD 仍然比 BBU RAID 控制器便宜。

Answer 1

在单台服务器上，我更喜欢软件 RAID 而不是硬件 RAID，因为硬件 RAID 迫使管理员采取预防措施，以防 RAID 控制器出现硬件故障。这通常需要储备并定期测试备用 RAID 控制器。