为什么 RAID 1+6 不是更常见的布局？

Question 1

一般来说，我认为 RAID 1+0 会比 1+5 或 1+6 更广泛地使用，因为 RAID 1+0足够可靠并提供略微更好的性能和更可用的存储。

我认为大多数人会把 RAID 1+0 组中的一对完整 RAID 1 发生故障视为非常罕见的事件，值得为此进行备份 - 而且可能不太热衷于让物理磁盘的可用空间低于 50%。

如果您需要比 RAID 1+0 更好的可靠性，那就去吧！...但大多数人可能不需要它。

Answer

一般来说，我认为 RAID 1+0 会比 1+5 或 1+6 更广泛地使用，因为 RAID 1+0足够可靠并提供略微更好的性能和更可用的存储。

我认为大多数人会把 RAID 1+0 组中的一对完整 RAID 1 发生故障视为非常罕见的事件，值得为此进行备份 - 而且可能不太热衷于让物理磁盘的可用空间低于 50%。

如果您需要比 RAID 1+0 更好的可靠性，那就去吧！...但大多数人可能不需要它。

Question 2

实际答案位于硬件 RAID 控制器规格、平均磁盘大小、驱动器外形尺寸和服务器设计的交叉点上。

大多数硬件 RAID 控制器支持的 RAID 级别有限。以下是 HP ProLiant Smart Array 控制器的 RAID 选项：

[raid=0|1|1adm|1+0|1+0adm|5|50|6|60]

注意：“adm”只是三重镜像

LSI RAID 控制器支持： 0, 1, 5, 6, 10, 50, and 60

因此这些控制器仅支持 RAID 50 和 60 作为嵌套级别。LSI（原为 Dell PERC) 和 HP 占据了企业服务器存储适配器市场的大部分份额。这是您在现场看不到 RAID 1+6 或 RAID 61 之类的东西的主要原因。

除此之外，RAID 10 以上的嵌套 RAID 级别需要相对大量的磁盘。鉴于当今可用的驱动器容量不断增加（使用 3.5 英寸近线 SAS 和 SATA 驱动器），再加上许多服务器机箱都是围绕 8 x 2.5 英寸驱动器笼设计的，因此物理配置 RAID 1+6 或 RAID 61 的机会并不多。

您可能会看到类似 RAID 1+6 的领域是大型机箱软件 RAID 解决方案。Linux MD RAID 或 ZFS 绝对能够做到这一点。但到那时，驱动器故障可以通过热备用或冷备用磁盘来缓解。如今，只要您避免使用有害的 RAID 级别和硬件组合（例如 RAID 5 和 6TB 磁盘），RAID 可靠性就不是什么大问题了。此外，读写性能将通过分层和缓存层来抽象。平均存储工作负载通常会从其中一种或另一种中受益。

所以到最后，看起来好像需求并不存在。

Answer

实际答案位于硬件 RAID 控制器规格、平均磁盘大小、驱动器外形尺寸和服务器设计的交叉点上。

大多数硬件 RAID 控制器支持的 RAID 级别有限。以下是 HP ProLiant Smart Array 控制器的 RAID 选项：

[raid=0|1|1adm|1+0|1+0adm|5|50|6|60]

注意：“adm”只是三重镜像

LSI RAID 控制器支持： 0, 1, 5, 6, 10, 50, and 60

因此这些控制器仅支持 RAID 50 和 60 作为嵌套级别。LSI（原为 Dell PERC) 和 HP 占据了企业服务器存储适配器市场的大部分份额。这是您在现场看不到 RAID 1+6 或 RAID 61 之类的东西的主要原因。

除此之外，RAID 10 以上的嵌套 RAID 级别需要相对大量的磁盘。鉴于当今可用的驱动器容量不断增加（使用 3.5 英寸近线 SAS 和 SATA 驱动器），再加上许多服务器机箱都是围绕 8 x 2.5 英寸驱动器笼设计的，因此物理配置 RAID 1+6 或 RAID 61 的机会并不多。

您可能会看到类似 RAID 1+6 的领域是大型机箱软件 RAID 解决方案。Linux MD RAID 或 ZFS 绝对能够做到这一点。但到那时，驱动器故障可以通过热备用或冷备用磁盘来缓解。如今，只要您避免使用有害的 RAID 级别和硬件组合（例如 RAID 5 和 6TB 磁盘），RAID 可靠性就不是什么大问题了。此外，读写性能将通过分层和缓存层来抽象。平均存储工作负载通常会从其中一种或另一种中受益。

所以到最后，看起来好像需求并不存在。

Question 3

可靠性的回报在递减。即使在超级错误率为 10^14 分之一的糟糕 SATA 驱动器上，RAID 6 也不太可能发生复合故障。在 FC/SAS 驱动器上，超级错误率为 10^16 分之一，而且性能也显著提高。
RAID 组可靠性无法保护您免遭意外删除。（因此无论如何您都需要备份）
超过某些 RAID 级别，磁盘发生复合故障的几率会低于支持基础设施（电源、网络、空调泄漏等）的复合故障
写入惩罚。RAID 61 上的每个传入写入都会触发 12 个 IO 操作（天真地完成）。就每 TB 随机写入的 IOP 而言，RAID 6 在“低层”场景中已经很痛苦了。（而在更高层，您的故障率无论如何都会好 100 倍）
这不是‘减少 25%’，而是更远减少 25%。您的 16TB 变成了 6TB。因此，您获得了 37.5% 的可用存储空间。您需要 3 倍的磁盘容量和 3 倍的数据中心空间。只需制作较小的 RAID6 组，您可能会获得更高的可靠性。我没有做过数字运算，但可以尝试 - 例如，将 RAID 6 的总和分为 3x 3+2 组（15 个驱动器，存储开销比 RAID10 少）。或者改为使用三向镜像。

话虽如此，对于多站点 DR 来说，这样做比您想象的更常见。我运行复制的存储阵列，其中我有异步或同步到 DR 站点的 RAID5/6/DP RAID 组。（如果可以避免，请不要进行同步 - 它看起来不错，但实际上很糟糕）。

对于我的 NetApps，这是一个带有一些镜像聚合的城域集群。对于我的 VMAX，我们有 Symmetrix 远程数据设施 (SRDF)。而我的 3PAR 可以进行远程复制。

它虽然价格昂贵，但却能提供“数据中心着火”级别的灾难恢复。

关于三重镜像 - 我使用过它们，但不是作为直接的 RAID 弹性措施，而是作为备份策略的一部分的完整克隆。同步第三个镜像，将其拆分，将其安装在单独的服务器上，然后使用完全不同的基础架构进行备份。有时旋转第三个镜像作为恢复选项。

我想说的是，根据我作为存储管理员的直接经验——在一个大约 40,000 个主轴的环境中（是的，我们每天都要更换数十个驱动器）——过去 5 年里，我们不得不出于各种原因进行备份，但都不是 RAID 组故障。我们确实在讨论相对优点和可接受的恢复时间、恢复点和中断窗口。而所有这些的基础始终是额外弹性的成本。

我们阵列的所有介质都经过清理和故障预测，并且积极进行备用和测试驱动器。

即使有合适的 RAID 实现，成本效益也不高。花在存储空间上的钱最好投资于更长的保留时间或更频繁的备份周期。或者更快的通信。或者只是通常更快的主轴，因为即使具有相同的弹性数字，更快的备件重建也会提高您的复合故障概率。

因此我想我可以回答你的问题：

您很少看到 RAID 1+6 和 1+5，因为成本效益根本无法叠加。如果资金有限，并且首先需要实施备份解决方案，那么您所做的就是花钱减少停机频率。有更好的方法来花这笔钱。

Answer

可靠性的回报在递减。即使在超级错误率为 10^14 分之一的糟糕 SATA 驱动器上，RAID 6 也不太可能发生复合故障。在 FC/SAS 驱动器上，超级错误率为 10^16 分之一，而且性能也显著提高。
RAID 组可靠性无法保护您免遭意外删除。（因此无论如何您都需要备份）
超过某些 RAID 级别，磁盘发生复合故障的几率会低于支持基础设施（电源、网络、空调泄漏等）的复合故障
写入惩罚。RAID 61 上的每个传入写入都会触发 12 个 IO 操作（天真地完成）。就每 TB 随机写入的 IOP 而言，RAID 6 在“低层”场景中已经很痛苦了。（而在更高层，您的故障率无论如何都会好 100 倍）
这不是‘减少 25%’，而是更远减少 25%。您的 16TB 变成了 6TB。因此，您获得了 37.5% 的可用存储空间。您需要 3 倍的磁盘容量和 3 倍的数据中心空间。只需制作较小的 RAID6 组，您可能会获得更高的可靠性。我没有做过数字运算，但可以尝试 - 例如，将 RAID 6 的总和分为 3x 3+2 组（15 个驱动器，存储开销比 RAID10 少）。或者改为使用三向镜像。