平均故障时间 (MTTF) 通常以小时为单位,通过一些计算,似乎磁盘应该发生故障仅有的很多年过去了。
看来磁盘需要修复的频率比这更高。有人知道这是为什么吗?
我觉得这个指标有点问题。我的理解有误吗?
答案1
首先:
MTTF = 平均故障时间
MTTR = 平均修复时间
MTBF = 平均故障间隔时间 = MTTF + MTTR
MTBF 通常与 MTTF 大致相同,因为维修可能需要一个小时,而 MTTF 可能为数万小时。但 MTBF 通常也不适用,因为有缺陷的产品不会得到维修,而只是被替换,因为维修成本高于替换成本。
MTTF 计算是一种复杂的统计方法,涉及计算每个部件发生故障的概率。它并不像人们有时认为的那样是线性的。如果 MTTF 为 1000 000 小时,这并不意味着 1000 台设备中会有一台在 1000 小时后发生故障,也不意味着 1000 000 台设备中会有一台在 1 小时后发生故障。
许多电子设备遵循“浴缸曲线”,
早期故障较多,随后很长一段时间内几乎无故障,接近使用寿命末期时故障数量再次上升。硬盘中也有一些机械部件,其故障曲线更为线性;从第一天开始,故障曲线便缓慢上升。
如果制造商说 MTTF 为 1000 000 小时(通常是 POH,即通电时间),则意味着一般驱动器的使用寿命应超过 100 年。有些驱动器使用寿命更长,有些驱动器则更早出现故障。因此,尽管使用了 1000,000 小时,但在 1000 小时后出现故障也是完全有可能的。我曾经遇到过一个驱动器在一周内出现故障的情况,然后你就不得不回想一下浴缸曲线。替换驱动器已经顺利运行了 50,000 小时以上。
答案2
如果某台设备的 MTBF 为 1,000,000 小时,这并不意味着任何设备都可以预期使用 1,000,000 小时。相反,它大致意味着,如果 1,000,000 台处于额定使用寿命内的设备每台运行一小时,或 100,000 台运行十小时(但仍在额定使用寿命内),或 60,000,000 台运行一分钟等,则该批次中大约会出现一次故障。请注意,额定使用寿命与 MTBF 完全正交。考虑以下两种类型的小部件:
- 每个小部件,无论使用年限如何,每小时都有 0.1% 的概率发生故障。
- 每十亿个小部件中,除了一个之外,其余的都会运行恰好61分钟然后死亡;那个小部件会在30分钟后死亡;小部件的指定使用寿命为60分钟。
第一种类型的小部件的平均使用寿命约为 1,000 小时,MTBF 也约为 1,000 小时。第二种类型的小部件的平均使用寿命为 61 分钟,但其使用寿命内的 MTBF 为 1,000,000,000 小时。虽然说第二种设备的 MTBF 几乎是预期使用寿命的十亿倍似乎很奇怪,但 MTBF 绝不是一个毫无意义的数字。
假设有人要进行一项实验,要求 1,000,000 台设备在一小时内全部正常工作,之后全部报废。如果任何一台设备发生故障,整个实验就毁于一旦。哪个更有用——一台平均使用寿命为 1,000 小时但 MTBF 仅为 1,000 小时的设备,还是一台最多使用寿命为 61 分钟但只有十亿分之一的几率无法达到该标准的设备?
答案3
补充一下 stevenvh 的回答:知名磁盘制造商都会对新设备进行老化测试,电子元件制造商也是如此。硬盘不仅有总体 MTBF,还有平均无故障时间还可以查看磁盘块的个别故障统计信息。换句话说:磁盘中旋转的“盘片”的某些部分可能会发生故障,但大多数部分仍可正常读取/写入。所谓的“坏扇区”可被驱动器内的固件检测到,然后映射出来。
如今,所有驱动器都保留了额外的扇区,然后可以用来替代缺陷扇区。这只是制造商的预防措施:如果他们不这样做,他们就无法以宣称的容量出售磁盘。如果他们将额外的 x % 隐藏扇区作为储备,则成本会增加一些 < x %,但总体生产产量会高得多。
如今的磁盘会保留坏扇区数量,也可以使用适当的软件读取这些坏扇区。这个和其他磁盘健康参数(例如温度)被称为聪明的值。
现在,一旦制造商完成了驱动器的老化测试,并且某些扇区几乎出现故障并已由驱动器的内部固件重新映射,“坏扇区数”SMART 参数将设置为 0。然后将驱动器交付给客户。
通常,在老化过程之后,客户不再会看到之前提到的浴盆曲线的起点。我们很幸运,随着时间的推移,我们只看到故障可能性增加。
因此,如果您查看制造商引用的 MTTF,对于您可能想要进行的任何故障建模,您可以忽略浴盆曲线的起点。
答案4
您应该将此解释为营销。他们实际上并不知道确切的 MTBF(平均故障间隔时间),因此他们使用各种技巧来估算它,并且他们为“企业”驱动器显示更高的数字以证明其成本合理。
事实上,如果硬盘在保修期过后不久出现故障,对硬盘制造商来说是有利可图的。
作为一个阴谋论,我相信 Seagate 7200.11 的大规模故障是实施“程序性死亡”的一个错误,导致磁盘在保修期结束前发生故障,因此他们不得不通过固件更新来“修复”这个问题。