为什么 RAID 1+6 不是更常见的布局?

为什么 RAID 1+6 不是更常见的布局?

为什么嵌套 RAID 级别 1+5 或 1+6 几乎闻所未闻?嵌套 RAID 级别维基百科文章目前缺少它们的部分。我不明白为什么它们不比 RAID 1+0 更常见,尤其是与 RAID 1+0 三重镜像相比时。

显然,随着驱动器容量的增长速度快于其性能或可靠性的增长速度,重建时间变得越来越成问题。有人告诉我,RAID 1 重建速度更快,RAID 0 阵列的 RAID 1 对可以避免这个问题,但 RAID 5 或 6 阵列的 RAID 1 对肯定也可以避免这个问题。我至少希望它们成为 RAID 1+0 的常见替代方案。

对于 16 个 1TB 驱动器,以下是我计算出的诉诸备份的简单概率,即简化地假设驱动器是均匀独立的:

RAID | storage | cumulative probabilities of resorting to backup /m
 1+0 |     8TB | 0, 67, 200, 385, 590, 776, 910, 980, 1000, 1000, 1000
 1+5 |     7TB | 0,  0,   0,  15,  77, 217, 441, 702,  910, 1000, 1000
 1+6 |     6TB | 0,  0,   0,   0,   0,   7,  49, 179,  441,  776, 1000
(m = 0.001, i.e. milli.)

如果这是正确的,那么很明显,RAID 1+6 比 RAID 1+0 更加可靠,而存储容量仅减少了 25%。与一般情况一样,理论写入吞吐量(不计算寻道时间)是存储容量/阵列大小 × 驱动器数量 × 阵列中最慢驱动器的写入吞吐量(具有冗余的 RAID 级别对于未填充条带的写入具有更高的写入放大,但这取决于块大小),理论读取吞吐量是阵列中驱动器的读取吞吐量之和(但 RAID 0、RAID 5 和 RAID 6 理论上仍会分别受到最慢、第二慢和第三慢驱动器读取吞吐量的限制)。即,假设驱动器相同,则分别为最大写入吞吐量的 8 倍、7 倍或 6 倍和最大读取吞吐量的 16 倍。

此外,考虑 RAID 0四倍RAID 1 三重镜像,即 12 个驱动器的 RAID 1+0 三重镜像,以及 RAID 6 六重镜像 RAID 1 对,即 12 个驱动器的 RAID 1+6。同样,这些是相同的 1TB 驱动器。两种布局具有相同数量的驱动器(12)、相同的存储容量(4TB)、相同的冗余比例(2/3)、相同的最大写入吞吐量(4 倍)和相同的最大读取吞吐量(12 倍)。以下是我的计算(到目前为止):

RAID      | cumulative probabilities of resorting to backup /m
1+0 (4×3) | 0, 0, 18,  ?,   ?,   ?,   ?,   ?, 1000
1+6 (6×2) | 0, 0,  0,  0,   0,  22, 152, 515, 1000

是的,这看起来可能有点过头了,但是当使用三重镜像来分离克隆以进行备份时,RAID 1+6 也可以使用,只需冻结并移除除 2 个 RAID 1 对之外的所有驱动器中的 1 个,这样做的同时,它在降级时仍然比降级的 RAID 1+0 阵列具有更好的可靠性。以下是我对以这种方式降级 4 个驱动器的 12 个驱动器的计算:

RAID      | cumulative probabilities of resorting to backup /m
1+0 (4×3) | (0, 0, 0, 0), 0, 143, 429, 771, 1000
1+6 (6×2) | (0, 0, 0, 0), 0,   0,  71, 414, 1000

但是,在此期间,RAID 1+6 的读取吞吐量可能会降低至 6 倍,而 RAID 1+0 只会降低至 8 倍。尽管如此,如果在阵列处于这种降级状态时驱动器发生故障,RAID 1+6 阵列将有 50% 的机会保持在 6 倍左右或进一步限制为 5 倍,而 RAID 1+0 阵列将限制为瓶颈。写入吞吐量应该不会受到影响(如果用于备份的驱动器是速度最慢的驱动器,它甚至可能会增加)。

事实上,两者都可以看作是“三重镜像”,因为降级的 RAID 1+6 阵列能够分离出一个额外的 4 个驱动器的 RAID 6 组。换句话说,这个 12 驱动器的 RAID 1+6 布局可以分为 3 个降级(但功能正常)的 RAID 6 阵列!

那么是不是大多数人还没有深入研究过数学知识?未来我们会看到更多 RAID 1+6 呢?

答案1

一般来说,我认为 RAID 1+0 会比 1+5 或 1+6 更广泛地使用,因为 RAID 1+0足够可靠并提供略微更好的性能和更可用的存储。

我认为大多数人会把 RAID 1+0 组中的一对完整 RAID 1 发生故障视为非常罕见的事件,值得为此进行备份 - 而且可能不太热衷于让物理磁盘的可用空间低于 50%。

如果您需要比 RAID 1+0 更好的可靠性,那就去吧!...但大多数人可能不需要它。

答案2

实际答案位于硬件 RAID 控制器规格、平均磁盘大小、驱动器外形尺寸和服务器设计的交叉点上。

大多数硬件 RAID 控制器支持的 RAID 级别有限。以下是 HP ProLiant Smart Array 控制器的 RAID 选项:

[raid=0|1|1adm|1+0|1+0adm|5|50|6|60]

注意:“adm”只是三重镜像

LSI RAID 控制器支持: 0, 1, 5, 6, 10, 50, and 60

因此这些控制器仅支持 RAID 50 和 60 作为嵌套级别。LSI(原为 Dell PERC) 和 HP 占据了企业服务器存储适配器市场的大部分份额。这是您在现场看不到 RAID 1+6 或 RAID 61 之类的东西的主要原因。

除此之外,RAID 10 以上的嵌套 RAID 级别需要相对大量的磁盘。鉴于当今可用的驱动器容量不断增加(使用 3.5 英寸近线 SAS 和 SATA 驱动器),再加上许多服务器机箱都是围绕 8 x 2.5 英寸驱动器笼设计的,因此物理配置 RAID 1+6 或 RAID 61 的机会并不多。

您可能会看到类似 RAID 1+6 的领域是大型机箱软件 RAID 解决方案。Linux MD RAID 或 ZFS 绝对能够做到这一点。但到那时,驱动器故障可以通过热备用或冷备用磁盘来缓解。如今,只要您避免使用有害的 RAID 级别和硬件组合(例如 RAID 5 和 6TB 磁盘),RAID 可靠性就不是什么大问题了。此外,读写性能将通过分层和缓存层来抽象。平均存储工作负载通常会从其中一种或另一种中受益。

所以到最后,看起来好像需求并不存在。

答案3

  • 可靠性的回报在递减。即使在超级错误率为 10^14 分之一的糟糕 SATA 驱动器上,RAID 6 也不太可能发生复合故障。在 FC/SAS 驱动器上,超级错误率为 10^16 分之一,而且性能也显著提高。

  • RAID 组可靠性无法保护您免遭意外删除。(因此无论如何您都需要备份)

  • 超过某些 RAID 级别,磁盘发生复合故障的几率会低于支持基础设施(电源、网络、空调泄漏等)的复合故障

  • 写入惩罚。RAID 61 上的每个传入写入都会触发 12 个 IO 操作(天真地完成)。就每 TB 随机写入的 IOP 而言,RAID 6 在“低层”场景中已经很痛苦了。(而在更高层,您的故障率无论如何都会好 100 倍)

  • 这不是‘减少 25%’,而是更远减少 25%。您的 16TB 变成了 6TB。因此,您获得了 37.5% 的可用存储空间。您需要 3 倍的磁盘容量和 3 倍的数据中心空间。只需制作较小的 RAID6 组,您可能会获得更高的可靠性。我没有做过数字运算,但可以尝试 - 例如,将 RAID 6 的总和分为 3x 3+2 组(15 个驱动器,存储开销比 RAID10 少)。或者改为使用三向镜像。

话虽如此,对于多站点 DR 来说,这样做比您想象的更常见。我运行复制的存储阵列,其中我有异步或同步到 DR 站点的 RAID5/6/DP RAID 组。(如果可以避免,请不要进行同步 - 它看起来不错,但实际上很糟糕)。

对于我的 NetApps,这是一个带有一些镜像聚合的城域集群。对于我的 VMAX,我们有 Symmetrix 远程数据设施 (SRDF)。而我的 3PAR 可以进行远程复制。

它虽然价格昂贵,但却能提供“数据中心着火”级别的灾难恢复。

关于三重镜像 - 我使用过它们,但不是作为直接的 RAID 弹性措施,而是作为备份策略的一部分的完整克隆。同步第三个镜像,将其拆分,将其安装在单独的服务器上,然后使用完全不同的基础架构进行备份。有时旋转第三个镜像作为恢复选项。

我想说的是,根据我作为存储管理员的直接经验——在一个大约 40,000 个主轴的环境中(是的,我们每天都要更换数十个驱动器)——过去 5 年里,我们不得不出于各种原因进行备份,但都不是 RAID 组故障。我们确实在讨论相对优点和可接受的恢复时间、恢复点和中断窗口。而所有这些的基础始终是额外弹性的成本。

我们阵列的所有介质都经过清理和故障预测,并且积极进行备用和测试驱动器。

即使有合适的 RAID 实现,成本效益也不高。花在存储空间上的钱最好投资于更长的保留时间或更频繁的备份周期。或者更快的通信。或者只是通常更快的主轴,因为即使具有相同的弹性数字,更快的备件重建也会提高您的复合故障概率。

因此我想我可以回答你的问题:

您很少看到 RAID 1+6 和 1+5,因为成本效益根本无法叠加。如果资金有限,并且首先需要实施备份解决方案,那么您所做的就是花钱减少停机频率。有更好的方法来花这笔钱。

答案4

因为没有人直接说明:Raid6 的写入性能并不差。如果处于高负载状态,那简直糟糕得难以形容。

顺序写入是可以的,只要缓存、写入合并等能够掩盖它,它看起来就没问题。在高负载下,情况看起来很糟糕,这是几乎从未使用 1+5/6 设置的主要原因。

相关内容