我的双磁盘故障是随机的还是表示系统性问题?

我的双磁盘故障是随机的还是表示系统性问题?

我在一台老旧的N54L Proliant 微型服务器. 6个月前,它有以下磁盘:

  • sda SanDisk_SDSSDP064G (64G SSD) (启动)
  • sdb WDC_WD30EZRX (WDC 绿色 3TB 硬盘) (RAID-1)
  • sdc WDC_WD30EZRX (WDC 绿色 3TB 硬盘) (RAID-1)
  • sdd WDC_WD80PURZ (WDC 紫色 8TB 硬盘)
  • sde WDC_WD30EZRX (WDC 绿色 3TB 硬盘)

服务器运行的是 Ubuntu 18.04,非启动磁盘使用 ZFS 进行管理。/sdb保存sdc了最重要的内容并进行了镜像。sddsde保存了不太重要的东西。我还有一个冷的 14TB USB 驱动器,我偶尔会将所有内容复制到其中。最后,我偶尔会对最重要的内容进行快照,然后通过 ZFS 发送到sde云(GCP GCS Nearline 存储)。

绿色 3TB 硬盘已有 9 年历史(!),在多次搬家后依然完好无损。紫色 8TB 硬盘已有 3.5 年历史。现在,大约 6 个月前,我开始在 上遇到读取错误sde。由于它只有不太重要的数据,并且主要是我快照 RAID-1 的地方,所以它并没有真正困扰我。我想等我找到它时再修复它。上周末我有一些空闲时间,从亚马逊买了一个新的 TOSHIBA_HDWD130(3TB),将服务器升级到 Ubuntu 20.04 并更换了坏的sde

现在的问题是:当我复制数据时,我开始收到读取错误sdb。:-/ 我曾经zpool replace将新的东芝添加到镜像中并取出第二个失败的 WDC,但现在我正在考虑下一步该怎么做。

我是否应该简单地更换第二个故障磁盘然后高高兴兴地离开,还是因为担心出现更糟糕的情况(电源、背板、热量……)而更换整个阵列/服务器?在做出决定时我应该考虑什么?

(注意:在提出问题时,我得出了一个我愿意接受的结论,并将很快回答我自己的问题;希望其他人能够审查我的工作和决定)

答案1

只需更换故障的磁盘,其他一切都很好。

看着谷歌的Backblaze 的数据表明,我们可以合理地预期这些老旧驱动器的 AFR 为 6%。如果事件确实不相关,那么我的双重故障概率约为 2%。当然,事件之间的相关性要高于这个数字:即使在健康的服务器中,磁盘也会有一些共同的命运、振动、热量等。

因此,实际上这种“双磁盘故障”并不“可能”,但也不是“哦,哈哈,什么鬼”。考虑到我仍然有足够的冷备份和云备份冗余,考虑到这是一个家庭项目(就预算和数据关键性而言),考虑到我可以合理地预期 ZFS 将继续拯救我免于无声损坏,我只会更换这一个坏磁盘。

我没有做过适当的风险成本分析,但我即兴地说,我愿意支付 250 美元来恢复不太重要的数据,500 美元来恢复重要的数据,以及一笔未知金额但可能超过 5000 美元来恢复最重要的数据(婚礼照片、我孩子的婴儿照片等)。我认为决定我愿意花多少钱来恢复这些数据是必要的,尽管我没有做过数学计算(这这本书我认为解释得很好),我认为这里的总结符合我的投资和备份策略。

相关内容