RAID5 阵列问题 - 首先复制数据或更换驱动器

RAID5 阵列问题 - 首先复制数据或更换驱动器

我继承了如下危急情况。

  • 2 x 16 磁盘 RAID5 存储系统 (一个保存主数据,一个保存备份)
  • 备份系统没有监控,两个磁盘发生故障,因此所有数据都丢失了——这不是什么大问题
  • 主系统显示 2 个磁盘有介质错误,一个稳定在 30 左右,另一个在 2,000 左右但缓慢增长(大约一周后为 2,100)

有长期计划使用更好的存储、使用热备、实施更好的监控、设置镜像、备份等等,但当务之急是保护主数据,因为它对业务至关重要,但它位于 RAID5 阵列上,其中两个磁盘显示错误

我们基本上把选项归结为

选项1

  • 更换有 2,000 个介质错误的磁盘并重建 RAID5 阵列
  • 完成后,换出另一个有介质错误的磁盘

主要担心的是,在重建阵列时(24-48 小时?),系统中没有任何冗余,任何磁盘故障都意味着所有数据丢失。

选项 2

  • 保留 RAID5 阵列原样并将数据复制到新的存储阵列

主要问题是,这将比 RAID 重建花费更长的时间,因为文件系统有数亿个小文件,所以复制可能需要近一个月的时间才能完成,而不会影响使用这些文件的站点

我很想知道你会采取哪种方法以及为什么?媒体这种程度的错误是否令人担忧?媒体错误的增长水平是否令人担忧?

答案1

是的,我会担心,考虑到你的情况,我会获取另一个系统并尽快进行备份,因为任何重建尝试都很容易导致丢失所有内容。

RAID 5 的有趣之处在于,您可能在另一个驱动器上有一个 URE,目前显示正常,因此即使您认为正在工作的磁盘,实际上也没有。因此会出现“重建错误”。

建立系统来复制数据并尽快开始备份这些文件。然后再考虑重建服务器。

...虽然就我个人而言,一旦你准备好备份并且知道它是好的,我会将你的服务器完全更换为具有 RAID 10 或 6 的服务器,重新开始......

相关内容