我最近刚刚设置了一个 3 驱动器 4TB MDRAID 5 阵列,用于镜像和在线备份我们的服务器。
我正在为未来的硬件(驱动器)故障做准备,并希望减轻 URE 的恢复故障。
通常我认为重建数组的过程是:
- 移除并更换故障的驱动器。
- 重建阵列
据我所知,在降级的 RAID 5 阵列中您仍然可以访问数据;但是当故障驱动器已被更换并且阵列正在重建时,如果检测到 URE,则恢复将失败并且阵列上的数据将立即变得不可读且不可恢复。
如果我的理解正确,那么在所有(可读)数据被复制之前恢复阵列似乎是不明智的。
这让我经历了以下过程:
- 来自数组的重复数据。
- 移除并更换故障的驱动器。
- 重建阵列
是否有其他流程可以缓解重建失败(除了重建期间的第二个驱动器故障)?在不先复制数据的情况下重建阵列是否安全?我的假设是否错误,例如在 URE 上重建失败,但数据在降级状态下仍然可用?
答案1
你可以通过以下方式为硬盘故障和其他所有问题做好准备:3-2-1 备份计划,我的个人意见3-2-1应该存在于每个关键业务环境中。
下列的3-2-1 规则将使生活变得更轻松,这显然要花费金钱,但结果是值得的。
您可以在这里了解更多信息:https://knowledgebase.starwindsoftware.com/explanation/the-3-2-1-backup-rule/
https://www.veeam.com/blog/the-3-2-1-0-rule-to-high-availability.html
答案2
我意识到 URE 对大多数人来说有点复杂且不为人所知,因为它们与阵列故障有关。
结论是URE 可能会导致阵列失败,但并不像文章中所说的那么频繁。 但与所有其他 RAID 级别相比,RAID 5 仍然是一种非常容易发生故障的 RAID 阵列。
那么回到基础,我们在 RAID 5 重建期间要缓解什么? 我们正在尝试在第二个驱动器发生故障之前恢复奇偶校验。就是这样! 这是一项不惜一切代价必须做出的努力。
这让我巩固了我的清单
- 临时从阵列复制数据,如果阵列很大并且 HDD 空间不足,则磁带最便宜。
- 移除并更换故障的驱动器。
- 从头开始使用新驱动器构建新阵列。
- 从步骤 1 将文件重新加载到新阵列。
这假设阵列可以脱机,但情况并非总是如此。但最终,一些人发现,从头开始构建新阵列并一次性将数据传输回来比尝试对大型多 TB 阵列进行全面重建更容易、更快捷。
此外,我怀疑,与完全重建相比,在降级状态下仅有效地读取数据并按顺序从阵列中写入数据一次,会大大降低在数据复制之前发生第二次驱动器故障的可能性,尽管这种可能性仍然存在。
最后,一切都与风险管理有关,风险管理因具体情况而异。就我而言,我通常可以在 24 小时内找到时间来恢复我的阵列,因此,对我来说,最好是重新备份、重建并从新备份中恢复。