URE 为何无法重建 RAID 并“导致 RAID 5 不可用”

URE 为何无法重建 RAID 并“导致 RAID 5 不可用”

很抱歉,但我无法从理论的角度理解。

为什么遇到单个 URE 时,RAID 控制器会认为其他所有东西都已损坏并死机?真蠢。40 TB 阵列因为丢失 1mb 就没用了?

重建整个系统,然后如果文件系统支持,就对所有文件进行校验和检查。即使不支持,在尝试打开这些文件时也会提示“文件损坏”。

对我来说,这整件事都表明硬件技术停滞不前。

编辑- 似乎人们只是直接跟风“你不应该依赖 RAID 进行备份”。好吧,我对此不感兴趣。是的,RAID 是为了可用性,而不是耐用性。事实是,如果重建只是跳过 URE,你仍然可以挽救 ~99% 的 RAID。

答案1

问题不在于制造商懒惰或技术陈旧。而是对 RAID 目标的误解。*1。RAID的目标是在磁盘损坏后保持文件系统可用。而不是替换备份或保证成功重建。


让我用一个实际的例子来解释一下:
你是一家有 100 名员工的办公室的 IT 人员。你需要为他们构建一个文件服务器。

现在,如果您使用单个磁盘进行备份,而磁盘坏了,那么 100 个人就会挖鼻屎,直到您更换磁盘并恢复备份。而且您需要经常备份(例如每天)。

现在您使用 RAID。单个磁盘坏了,但阵列仍然处于降级状态。所有文件仍可访问,每个人都可以继续工作。晚上 8 点*2您运行一组新的备份,关闭服务器,更换损坏的磁盘并恢复数据。无论是重建还是从备份恢复。每个人都可以继续工作,不会丢失任何数据。


这里有几个假设:

  1. 您确实有备份。您确实应该有备份,因为 RAID 无法防范某些情况,例如服务器被盗、雷击、火灾等......
    咆哮结束
  2. 当您拥有大磁盘时,磁盘重建可能需要很长时间。对于具有服务器资格的旧 80MB 驱动器来说,这没问题。如果您使用大型(多 TB)消费者驱动器,则需要很长时间。从备份中恢复可能会更快。仅出于这个原因,您在使用 40TB 阵列时就需要考虑制作和测试备份。

请注意,磁盘上的某个扇区偶尔会出现故障。这是生活中的常态。这种情况很少发生,驱动器有办法解决这个问题(重新分配扇区,另请参阅局部淋巴细胞)。如果您拥有巨大的磁盘并尝试重建它们,那么您将读取大量扇区。遇到 URE 的可能性很小,但并非为零。如果发生这种情况,请恢复备份。


*1:RAID 为 RAID1(镜像)、RAID 5、RAID 6 或 RAID10 之类的组合。

*2或者当每个人都回家时。一封带有“下午 5 点紧急维护!”的电子邮件会有所帮助

答案2

不,RAID 制造商并不愚蠢或懒惰。

尽可能简单地说:如果您尝试重建数据(尤其是从奇偶校验,例如 RAID5),并且在读取您正在构建的源时出现无法恢复的读取错误,那么就不可能从损坏的源正确重建阵列。

相关内容