了解磁盘阵列可用性

Question 1

显然，DAA 仅与 RAID 阵列相关，因为它是独立磁盘的冗余阵列。

关于 MTBF，日立提供了以下一些信息：

“MTBF 目标基于样本群体，并通过中等操作条件下的统计测量和加速算法进行估算。MTBF 评级并非用于预测单个驱动器的可靠性。MTBF 不构成保证。”

对于 HDD，最好使用 AFR — 年故障率（https://en.wikipedia.org/wiki/Annualized_failure_rate）

WD 刚刚停止使用 MTBF/MTTF 规范，只是因为对该声明非常不清楚和不理解。

您无法计算实际的 HDD 寿命，因为有许多因素会影响可靠性，例如：

1）温度

2）电源开关循环

3）密集写入/读取

4）甚至来自制造商软件或硬件的问题

Answer

显然，DAA 仅与 RAID 阵列相关，因为它是独立磁盘的冗余阵列。

关于 MTBF，日立提供了以下一些信息：

“MTBF 目标基于样本群体，并通过中等操作条件下的统计测量和加速算法进行估算。MTBF 评级并非用于预测单个驱动器的可靠性。MTBF 不构成保证。”

对于 HDD，最好使用 AFR — 年故障率（https://en.wikipedia.org/wiki/Annualized_failure_rate）

WD 刚刚停止使用 MTBF/MTTF 规范，只是因为对该声明非常不清楚和不理解。

您无法计算实际的 HDD 寿命，因为有许多因素会影响可靠性，例如：

1）温度

2）电源开关循环

3）密集写入/读取

4）甚至来自制造商软件或硬件的问题

Question 2

MTBF 只是一个统计数据。它不会帮助您预测结果。根据我 20 年来使用不同制造商的各种磁盘的经验，企业级设备的使用寿命通常比您在典型环境中想象的要长得多。是的，您总是会有 10% 的故障率，但这就是 RAID 和备份的目的。

话虽如此，企业环境中的消费级设备往往会在您认为会出现故障的时候（即保修期过后不久）出现故障。但是，如果您使用的是 WD Black/Gold 磁盘或 Seagate Enterprise 磁盘等，那么您会丢弃它们，因为它们在停止旋转之前就已经变得毫无用处地小/慢。SSD 还有一个额外的优势，就是可以告诉您它们还剩下多少使用寿命，所以就是这样。

Answer

MTBF 只是一个统计数据。它不会帮助您预测结果。根据我 20 年来使用不同制造商的各种磁盘的经验，企业级设备的使用寿命通常比您在典型环境中想象的要长得多。是的，您总是会有 10% 的故障率，但这就是 RAID 和备份的目的。

话虽如此，企业环境中的消费级设备往往会在您认为会出现故障的时候（即保修期过后不久）出现故障。但是，如果您使用的是 WD Black/Gold 磁盘或 Seagate Enterprise 磁盘等，那么您会丢弃它们，因为它们在停止旋转之前就已经变得毫无用处地小/慢。SSD 还有一个额外的优势，就是可以告诉您它们还剩下多少使用寿命，所以就是这样。

Question 3

平均故障间隔时间为 160 万小时，即 182 年，这意味着，如果一年内运行 182 个驱动器，则很可能至少有一个驱动器会故障。年故障率是此值的倒数，以“每小时故障数”为单位，按年计算。

供应商可能夸大了 MTTF：

Backblaze 2018 年数据显示年故障率为 1.25%或约 110 年 MTBF
ServeTheHome 承担 5 年
存储开发者大会上的演讲者假设 MTBF 为 34 年（年故障率为 4%）

这可能与消费者磁盘与企业磁盘有关，但最好不要拿您的数据冒险。

平均修复时间 (MTTR) 是完整修复的典型时间，包括驱动器更换和重建。这个时间变化很大，从通知和更换驱动器的几天到已经是阵列成员的热备用驱动器的零时间。

总而言之，数据丢失是指故障数量超过阵列的冗余度。例如，阵列降级时发生二次故障。故障模式以及公式取决于 RAID 级别。

RAID 5 会导致任何驱动器发生第二次故障。第一次故障等于 MTTF 除以驱动器数量。但第二次故障必须在降级窗口内，其概率为( MTTR ) / ( MTTF / number of drives - 1 )。将两者相乘，即可得出第二个驱动器发生故障的概率。

那是整个驱动器故障。不可恢复（又称无法恢复）的读取错误也可能很严重。Backblaze 喜欢的 Segate ST8000DM002 的规格为 8 TB，每 10^14 位发生一次读取错误。（他们测量的 AFR 为 0.94%）这意味着，驱动器的完整读取可能会有 64% 的时间出现故障扇区。驱动器在实践中可能会超过此规格，特别是如果它们不是很旧的话。如果阵列具有冗余并且可以纠正它，URE 可能并不重要。或者阵列只返回一个文件系统没有使用的坏扇区。或者如果它击中了一个不重要的文件。如果它导致阵列完全失败，那就更成问题了。

进一步阅读：

实际上，始终按照恢复点目标所需的频率在阵列外部进行备份。阵列冗余是为了减少驱动器故障的恢复时间，但并不能保护您免受所有数据丢失情况的影响。

Answer