我继承了如下危急情况。
- 2 x 16 磁盘 RAID5 存储系统 (一个保存主数据,一个保存备份)
- 备份系统没有监控,两个磁盘发生故障,因此所有数据都丢失了——这不是什么大问题
- 主系统显示 2 个磁盘有介质错误,一个稳定在 30 左右,另一个在 2,000 左右但缓慢增长(大约一周后为 2,100)
有长期计划使用更好的存储、使用热备、实施更好的监控、设置镜像、备份等等,但当务之急是保护主数据,因为它对业务至关重要,但它位于 RAID5 阵列上,其中两个磁盘显示错误
我们基本上把选项归结为
选项1
- 更换有 2,000 个介质错误的磁盘并重建 RAID5 阵列
- 完成后,换出另一个有介质错误的磁盘
主要担心的是,在重建阵列时(24-48 小时?),系统中没有任何冗余,任何磁盘故障都意味着所有数据丢失。
选项 2
- 保留 RAID5 阵列原样并将数据复制到新的存储阵列
主要问题是,这将比 RAID 重建花费更长的时间,因为文件系统有数亿个小文件,所以复制可能需要近一个月的时间才能完成,而不会影响使用这些文件的站点
我很想知道你会采取哪种方法以及为什么?媒体这种程度的错误是否令人担忧?媒体错误的增长水平是否令人担忧?
答案1
是的,我会担心,考虑到你的情况,我会获取另一个系统并尽快进行备份,因为任何重建尝试都很容易导致丢失所有内容。
RAID 5 的有趣之处在于,您可能在另一个驱动器上有一个 URE,目前显示正常,因此即使您认为正在工作的磁盘,实际上也没有。因此会出现“重建错误”。
建立系统来复制数据并尽快开始备份这些文件。然后再考虑重建服务器。
...虽然就我个人而言,一旦你准备好备份并且知道它是好的,我会将你的服务器完全更换为具有 RAID 10 或 6 的服务器,重新开始......