具有热备用 (17+1) 的 Raid 5 不知何故变成了不具有热备用 (18 + 0) 的 Raid 5?(Dell Poweredge T640)

具有热备用 (17+1) 的 Raid 5 不知何故变成了不具有热备用 (18 + 0) 的 Raid 5?(Dell Poweredge T640)

最近我们遇到了一些奇怪的 RAID 存储服务器问题。最近遇到的问题我不知道是怎么回事。

配置为 Raid 5;17 + 1(17 个磁盘卷 + 1 个专用热备盘)

磁盘将自身标记为“已移除”。由于我们目前的预算非常有限,我们试图在更换所有驱动器之前重新安装它们,前提是在任何时间点只有 1 个驱动器被标记(我们的想法是,由于 17+1 配置,我们可以承受该驱动器 + 另一个磁盘发生故障)。就实际的数据保护需求而言,服务器几乎没有使用,空间被用于一种临时处理草图板功能,而不是用于存档重要内容。所以这不是世界末日,但我们仍然希望拥有 raid 5 缓冲区,以及专用备用磁盘的额外缓冲区。

我重新安装了磁盘,但服务器并没有恢复到 17+1 配置,而是奇怪地显示为现在的 18 磁盘 raid 5 卷。过去,重新安装会按预期将服务器恢复到 17+1。有时 +1 会作为外来磁盘返回,或者不会自动被分配为专用备用磁盘,但它总是会作为与正在使用的 17 个磁盘分开的磁盘返回。要么是热备用磁盘被移除,要么是 17 个磁盘中的一个被“移除”,并且热备用磁盘会自动取代 raid 5 卷中的第 17 个磁盘,因此重新安装的磁盘对于组成新 17 个磁盘组的 17 个磁盘来说是多余的。

我该怎么办?大概我无法将卷缩小到 17,然后将磁盘重新分配为专用热备用,因为 raid 卷现在有 18 个磁盘。但如果是这样,我们就不再有配置可以从 2 个丢失的驱动器中恢复,因为没有第 19 个插槽可以安装专用热备用。

答案1

18 个磁盘的 RAID5 是一场即将发生的灾难...我希望你有一个好的备份。

认真地说,对于最多 5 个磁盘或大于 1 TB 的磁盘,您需要使用 RAID6。

由于您没有缩小阵列的选项,因此您需要添加磁盘,以便可以迁移到 RAID6,无论是否使用热备用。对于 18 个磁盘,我强烈建议使用带有九个磁盘子阵列的 RAID60(感谢@Nikita)。

我们不再拥有能够从 2 个丢失的驱动器中恢复的配置

你从来没有。RAID5与主机备用可以从失去动力重建后可能会恢复其他丢失驱动器。如果在重建期间发生任何事情(这并不罕见),阵列就会丢失。

没有第 19 个插槽可以安装专用的热备用。

如果你不能添加驱动器,那么你的空间就基本用完了。要么测试你的备份和恢复方案,删除并创建一个RAID6或更好 -RAID60阵列,或者考虑迁移到新的服务器。

如果没有预算,也没有维护窗口来重建阵列,那么您几乎没有选择。确保有可靠且经过充分测试备份(两个备份实例,在不同介质上,测试包括裸机恢复),定期清理(显著降低重建时出现陈旧数据错误的可能性),停止重新安装的做法(这可能让你一开始就陷入了这种困境),然后保持镇定。你快要精疲力竭了。

顺便问一下,您是否估算过阵列完全失效的成本和情形?

答案2

Raid6 比 R5 + 热备盘好得多,因为允许同时发生故障的磁盘数量是 R5 的两倍。实际上,如果有这么多驱动器,这确实很可怕,但比 R5 可怕得多 ;)

现在,18 个磁盘上都有 R5,因此如果出现任何故障,您都依赖于正确读取 17 个磁盘上的所有扇区(由于 CRC 总和的工作原理,控制器需要读取所有空扇区和所有使用过的扇区)。此外,其中一些磁盘不稳定,可能已经出现故障。

通常驱动器会被踢出 RAID,因为它需要比平时更多的时间来读取数据。比平时更多的时间通常是驱动器即将发生故障的迹象,它可能出现在 SMART 中,也可能不出现。这些可能是故障驱动器的“奇怪问题”,稍后可以将其重新连接到阵列。

在 Raid 1/Raid10 上重新安装或使用驱动器可能是一个好主意,但在没有余地的设置上则不然。在这种情况下,我认为阵列已经坏了,如果不是,它可能很快就会坏掉。

因此,在我看来,解决方案是 - 对这些糟糕的、故障的驱动器使用 R10 并以某种方式限制资源使用,或者对备用驱动器执行 R6,以便在一个驱动器丢失后立即重建。如果预算有限,最好保留一些数据并删除历史数据,而不是丢失所有数据。

您可能需要尽快开始修复它。与老板交谈并告知此突袭布局不合适,并且有 3 个选项:

  • 继续 R5 并在不久的将来失去一切
  • 在 R10 中重建并限制存储的数据
  • R6 + 备用,这可能是一个非常糟糕的主意,但也许你可以使用 R6 而不使用备用来进行临时处理,并使用 R1 来处理所有重要的东西(这样你就不会牺牲太多的存储空间)

实际上你很幸运,这仍然有效......

相关内容