很抱歉,但我无法从理论的角度理解。
为什么遇到单个 URE 时,RAID 控制器会认为其他所有东西都已损坏并死机?真蠢。40 TB 阵列因为丢失 1mb 就没用了?
重建整个系统,然后如果文件系统支持,就对所有文件进行校验和检查。即使不支持,在尝试打开这些文件时也会提示“文件损坏”。
对我来说,这整件事都表明硬件技术停滞不前。
编辑- 似乎人们只是直接跟风“你不应该依赖 RAID 进行备份”。好吧,我对此不感兴趣。是的,RAID 是为了可用性,而不是耐用性。事实是,如果重建只是跳过 URE,你仍然可以挽救 ~99% 的 RAID。
答案1
问题不在于制造商懒惰或技术陈旧。而是对 RAID 目标的误解。*1。RAID的目标是在磁盘损坏后保持文件系统可用。而不是替换备份或保证成功重建。
让我用一个实际的例子来解释一下:
你是一家有 100 名员工的办公室的 IT 人员。你需要为他们构建一个文件服务器。
现在,如果您使用单个磁盘进行备份,而磁盘坏了,那么 100 个人就会挖鼻屎,直到您更换磁盘并恢复备份。而且您需要经常备份(例如每天)。
现在您使用 RAID。单个磁盘坏了,但阵列仍然处于降级状态。所有文件仍可访问,每个人都可以继续工作。晚上 8 点*2您运行一组新的备份,关闭服务器,更换损坏的磁盘并恢复数据。无论是重建还是从备份恢复。每个人都可以继续工作,不会丢失任何数据。
这里有几个假设:
- 您确实有备份。您确实应该有备份,因为 RAID 无法防范某些情况,例如服务器被盗、雷击、火灾等......
咆哮结束。 - 当您拥有大磁盘时,磁盘重建可能需要很长时间。对于具有服务器资格的旧 80MB 驱动器来说,这没问题。如果您使用大型(多 TB)消费者驱动器,则需要很长时间。从备份中恢复可能会更快。仅出于这个原因,您在使用 40TB 阵列时就需要考虑制作和测试备份。
请注意,磁盘上的某个扇区偶尔会出现故障。这是生活中的常态。这种情况很少发生,驱动器有办法解决这个问题(重新分配扇区,另请参阅局部淋巴细胞)。如果您拥有巨大的磁盘并尝试重建它们,那么您将读取大量扇区。遇到 URE 的可能性很小,但并非为零。如果发生这种情况,请恢复备份。
*1:RAID 为 RAID1(镜像)、RAID 5、RAID 6 或 RAID10 之类的组合。
*2或者当每个人都回家时。一封带有“下午 5 点紧急维护!”的电子邮件会有所帮助
答案2
不,RAID 制造商并不愚蠢或懒惰。
尽可能简单地说:如果您尝试重建数据(尤其是从奇偶校验,例如 RAID5),并且在读取您正在构建的源时出现无法恢复的读取错误,那么就不可能从损坏的源正确重建阵列。