SATA 硬盘的平均寿命是多少?
我能找到的几乎所有数据都给出了前 0-5 年的故障率,但似乎没有一个数据能真正找到驱动器的使用寿命的终点。
google、backblaze 等公司的报告、图表和研究只讲述了部分故事,因为它们关注的是前 5 年左右。
假设 50% 的驱动器在 8 年内损坏,并不代表另外 50% 的驱动器会在 16 年内损坏。 有没有一个图表可以显示一组硬盘的 100% 性能,并给出结果?或者有什么东西可以提供同等的信息?
假设在典型的气候受控的家庭/办公室中,消费者驱动器的工作负载繁重,硬盘的实际寿命平均值是多少? 再次强调,在(较短的)设定寿命期内,故障率并不高。
对我们来说,实际结果是,10 年内硬盘故障率不到 10%,而且故障间隔时间从未很短,因此我很乐意使用老硬盘,但希望尽可能了解情况;我们目前的硬盘组运行时间范围为 0-8 年(运行时间),平均大概在 3-4 年左右,最近一次故障是运行了 5 年的硬盘。此外,我们有一个 40gb 和 80gb 的硬盘,每个硬盘都超过 10 年(制造日期),但仍在时不时地可靠地使用。有足够的数据表明 SATA HDD 的使用寿命远远超过 5 年,但不足以显示使用寿命的趋势。
背景:
我们正在为一家小型企业迁移到 OBR10 设置,其中的 SATA 驱动器已使用了 4-6 年,我正在试图弄清楚迁移到 3 副本 MD RAID 10 与 2 副本相比是否更为明智。
有了每日数据镜像和完整备份,主阵列完全丢失并需要重建和从备份中恢复不会造成任何损害,但我希望避免这种情况。然而我似乎找不到超出我们当前硬盘使用年限的数据。并且没有迹象表明它们在数据似乎停止的 5 +/- 年标记处大量失败。
答案1
TLDR:我们无法对硬盘的平均寿命进行量化,因为它实在是太复杂了。
平均寿命没有真正的衡量标准,因为它在很大程度上取决于一系列不同的因素。这有点像问一段绳子有多长对于特定驱动器,数据表可能包含一些相关信息,但它仍然是粗糙的表明,可能需要用一点盐和茶叶来解释。
首先,当您只有一个驱动器时,单个驱动器发生故障,悲剧拥有一个属于阵列集群的 raid 阵列的驱动器只是统计数字。人们不能看着某个驱动器说“这肯定会用十年”。人们可以说“这个驱动器应该能用 5 年”,然后计划有计划地更换它。
我还注意到,backblaze 和谷歌以及大多数行业都担心平均的故障率和可靠性在驱动器的整个使用寿命中在特定条件下。他们希望购买一卡车的硬盘,尽可能便宜高效地运行它们,在计划更换之前不必真正担心它们。知道“这些是硬盘将要报废的迹象”比让硬盘报废要好,并且能够平衡冷却成本和硬盘烧坏的硬件成本。
实际上,硬盘是商品设备 - 而且大多数地方通常不会真正跟踪可靠性。直到最近(相对而言!),大公司才开始部署大量此类硬盘并开始共享其可靠性信息。
有充分理由关注预测故障分析和采摘可靠性模型超过长期可靠性简单来说,所有硬件都会死机,而更换驱动器在人力、停机时间甚至某些情况下的会计方面都更“便宜”。前它们往往因机械故障而死亡。
具体的硬盘可能存在问题 - 例如,Seagate 7200.11 因固件故障而随机死机,后来得到了修复。其他硬盘品牌和型号的可靠性可能非常低。我从来没有遇到过 HGST 台式硬盘故障的情况。
您可以查找平均故障时间模型- 这应该与硬盘的平均寿命相关,但现代文献似乎认为这是一堆胡扯。希捷已转向空气阻力反正。
在查找这个的时候 - 我偶然发现了这伟大的幻灯片集来自 WD 的某人。不确定相关讲座是否在网上。
这很好地表明了主要硬盘制造商所期望的最低可靠性/寿命是多少。
避免在产品保修期内(或保修期后)发生无法控制的灾难
企业设备的典型保修,以及较旧消费级硬盘的使用寿命为 5 年。新硬盘的使用寿命为 3 年。因此,您的硬盘制造商假设他们的硬盘在 5 年内不会出现故障,因为这会花费他们的钱。因此,他们假设您要么承担风险,要么在 5 年之后更换硬盘。
演示文稿的其余部分读起来很有趣,但跳过了大部分物理内容。
这是一张简单的小图,展示了硬盘可靠性所涉及的所有要素,取自同一组幻灯片
虽然人们谈论驱动器可靠性时会提到经典的浴缸曲线,但实际的占空比、驱动器写入时间以及温度都很重要,此外所有这些设计和环境因素。这太复杂了,很难猜测。