如何评估 SSD 和 HDD 的故障时间(剩余寿命)以及它们是否可以恢复?

如何评估 SSD 和 HDD 的故障时间(剩余寿命)以及它们是否可以恢复?

我想计算一下截至目前我的 SSD 和机械硬盘的寿命。

计算出的剩余使用寿命可以帮助我及时采取措施,例如增加备份频率。我主要对未使用或仅在刷新备份时使用的备份硬盘的剩余使用寿命感兴趣。

到目前为止,我发现了四个剩余故障时间的指标(或估算方法):

  • 根据一些(甚至大多数?)关于该主题的文章,该产品的保修期通常为“大约 5 年”,以硬盘驱动器为例
  • SMART 磁盘自我扫描(通过 GNU/Linux/Debian10 上的 GNOME 磁盘实用程序)
  • 磁盘的 TBW(写入的 TB 数)(例如(适用于 Linux)与产品的最大 TBW 相比,发生故障或保修的最大 TBW
  • 产品的“平均故障间隔时间”(MTBF)以小时为单位。

但是,我想考虑到备份驱动器未使用或大部分时间未使用,而这些方法并没有真正考虑到这一点。此外,SMART 健康检查对于普通 HDD 来说非常不可靠。而且我找不到有关我的 HDD 估计最大 TBW 的信息(仅适用于 SSD)。MTBF 也被认为不可靠,我不确定这是否仅适用于全天候使用的磁盘,而不是也适用于那些大部分时间不活动的磁盘,而且它似乎比接近“大约 5 年”的任何时间都要长得多,所以我不确定它有多大相关性。最后,我不知道如何结合使用这些方法,也不知道在哪种情况下哪种方法最可靠(例如 HDD 未使用与 SSD 使用等)。


→ 还有其他方法可以计算活动和非活动 HDD 和 SSD 的剩余寿命吗?您能否通过这 4 种检查方法解决我的疑虑(例如 MTBF 有多可靠)?


我之所以问这个问题,是因为硬盘越早坏掉,产生的电子垃圾就越多。这会造成污染并浪费矿物质。我之所以问这个问题,还因为我想检查我的备份是否完好无损——例如,存储备份的文件在不使用时不会发生故障,以及我使用的硬盘何时会发生故障。一些指标可能有标准,也可能在购买前进行比较,以便只生产使用寿命长的硬盘。甚至可能存在多种计算寿命的方法的标准。

可能一个单独的问题,但也可能是此问答的一部分,这就是我将其附加在这里的原因:有没有办法在发生故障后恢复硬盘的健康,例如删除坏扇区或“重写”某些数据或甚至在驱动器上进行某些物理操作?(也许甚至有软件可以不断检查哪些扇区可能很快发生故障并在发生故障之前移动数据?)

答案1

“还有其他方法可以计算活动和非活动 HDD 和 SSD 的剩余寿命吗?您能否通过这 4 种检查方法解决我的疑虑(例如 MTBF 有多可靠)?” -不——至少不可靠硬盘故障并不是很容易预测的 - 而 SMART 也只是尽善尽美而已,也就是说它并不擅长预测故障。

SSD 上的磨损均衡指示的 SMART 值更加可靠和可预测。

根据您的驱动器,Backblaze 会发布他们使用的驱动器的可靠性特性,如果他们碰巧使用它们,这可能会给您提供一个毫无意义的数据点,供您考虑您的模型驱动器,但它没有提到大多数处于离线状态的磁盘。

相关内容