平均故障间隔时间——SSD

Question 1

驱动器制造商根据两个相关指标来指定其产品的可靠性：年故障率 (AFR)，即按每年估计的测试中发生故障的磁盘驱动器占总体的百分比；以及平均故障时间 (MTTF)。

新产品的 AFR 通常根据加速寿命和压力测试或早期产品的现场数据进行估算。MTTF 的估算方法是每年通电小时数除以 AFR。对于服务器中的驱动器，一个常见的假设是它们 100% 的时间都处于通电状态。

http://www.cs.cmu.edu/~bianca/fast/

150 万小时的 MTTF 听起来似乎有些道理。

这大致相当于对 1000 个驱动器运行 6 个月，其中 3 个驱动器发生故障的测试。AFR
为 (2* 6 个月 * 3)/(1000 个驱动器)=每年 0.6%，MTTF = 1 年/0.6%=1,460,967 小时或 167 年。

另一个看待这个数字的方式是，当你有 167 个驱动器并让它们运行一年时，制造商声称一般您会看到一个驱动器出现故障。

但我认为这只是恒定的“随机”机械/电子故障率。

假设故障率遵循浴缸曲线，正如评论中提到的，制造商的营销团队可以稍微修改可靠性数字，例如不包括 DOA（到货即已损坏，通过质量控制但在最终用户安装时发生故障的单元）并扩展 DOA 定义以排除早期故障峰值中的那些。而且由于测试时间不够长，您也不会看到老化效应。

我认为保修期可以更好地表明制造商真正期望 SSD 能使用多长时间！
这绝对不会以几十年或几个世纪来衡量...

与 MTBF 相关的是与 NAND 单元可以支持的有限写入周期数相关的可靠性。一个常用指标是总写入容量，通常以 TB 为单位。除了其他性能要求之外，这也是一个很大的限制因素。

为了更方便地比较不同品牌和不同尺寸的驱动器，写入耐久性通常转换为每日写入容量（磁盘容量的一部分）。

假设驱动器的额定使用寿命与保修期一样长：
100 GB 的 SSD 可能有 3 年保修期和 50 TB 的写入容量：
        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

该数字越高，磁盘越适合写入密集型 IO。
目前（2014 年底），价值服务器系列 SSD 的值为 0.3-0.8 个驱动器/天，中端产品的值从 1 稳步增加到 5，而高端产品的值似乎飞涨，写入耐久性水平高达 25 * 驱动器容量/天，持续 3-5 年。

一些现实世界测试表明有时供应商的索赔可能会大幅超出，但驾驶设备超出供应商的限制并不总是企业考虑的……相反购买正确规格的驱动器为了您的目的。

Answer

驱动器制造商根据两个相关指标来指定其产品的可靠性：年故障率 (AFR)，即按每年估计的测试中发生故障的磁盘驱动器占总体的百分比；以及平均故障时间 (MTTF)。

新产品的 AFR 通常根据加速寿命和压力测试或早期产品的现场数据进行估算。MTTF 的估算方法是每年通电小时数除以 AFR。对于服务器中的驱动器，一个常见的假设是它们 100% 的时间都处于通电状态。

http://www.cs.cmu.edu/~bianca/fast/

150 万小时的 MTTF 听起来似乎有些道理。

这大致相当于对 1000 个驱动器运行 6 个月，其中 3 个驱动器发生故障的测试。AFR
为 (2* 6 个月 * 3)/(1000 个驱动器)=每年 0.6%，MTTF = 1 年/0.6%=1,460,967 小时或 167 年。

另一个看待这个数字的方式是，当你有 167 个驱动器并让它们运行一年时，制造商声称一般您会看到一个驱动器出现故障。

但我认为这只是恒定的“随机”机械/电子故障率。

假设故障率遵循浴缸曲线，正如评论中提到的，制造商的营销团队可以稍微修改可靠性数字，例如不包括 DOA（到货即已损坏，通过质量控制但在最终用户安装时发生故障的单元）并扩展 DOA 定义以排除早期故障峰值中的那些。而且由于测试时间不够长，您也不会看到老化效应。

我认为保修期可以更好地表明制造商真正期望 SSD 能使用多长时间！
这绝对不会以几十年或几个世纪来衡量...

与 MTBF 相关的是与 NAND 单元可以支持的有限写入周期数相关的可靠性。一个常用指标是总写入容量，通常以 TB 为单位。除了其他性能要求之外，这也是一个很大的限制因素。

为了更方便地比较不同品牌和不同尺寸的驱动器，写入耐久性通常转换为每日写入容量（磁盘容量的一部分）。

假设驱动器的额定使用寿命与保修期一样长：
100 GB 的 SSD 可能有 3 年保修期和 50 TB 的写入容量：
        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

该数字越高，磁盘越适合写入密集型 IO。
目前（2014 年底），价值服务器系列 SSD 的值为 0.3-0.8 个驱动器/天，中端产品的值从 1 稳步增加到 5，而高端产品的值似乎飞涨，写入耐久性水平高达 25 * 驱动器容量/天，持续 3-5 年。

一些现实世界测试表明有时供应商的索赔可能会大幅超出，但驾驶设备超出供应商的限制并不总是企业考虑的……相反购买正确规格的驱动器为了您的目的。

Question 2

不幸的是，MTBF 并不像大多数人想象的那样......

它不是一次驾驶可以持续多长时间。

制造商希望他们的硬盘能够使用到保修期，保修期过后就不是他们的问题了。较旧的电磁盘式硬盘在使用 10 年左右后就会卡住。集成电路的使用寿命极长，但其他组件（尤其是电容器）在可预测的循环次数后就会磨损。
它是您需要多少个这样的驱动器才能预计每小时会有 1 个驱动器发生故障。

正如其他人指出的那样，制造商会在一段合理的时间内进行各种测试并确定故障率。这些测试中存在相当大的差异，营销人员通常会“输入”最终数字。无论如何，他们都会尽力猜测平均每小时发生一次故障需要多少个驱动器。

对于驱动器较少的情况，你可以根据 MTBF 推断出故障的统计概率，但请记住，设计良好的产品中的故障应该遵循“浴缸”曲线- 即设备首次投入使用时和保修期过后的故障率较高，而中间阶段的故障率较低。

Answer

不幸的是，MTBF 并不像大多数人想象的那样......

它不是一次驾驶可以持续多长时间。

制造商希望他们的硬盘能够使用到保修期，保修期过后就不是他们的问题了。较旧的电磁盘式硬盘在使用 10 年左右后就会卡住。集成电路的使用寿命极长，但其他组件（尤其是电容器）在可预测的循环次数后就会磨损。
它是您需要多少个这样的驱动器才能预计每小时会有 1 个驱动器发生故障。

正如其他人指出的那样，制造商会在一段合理的时间内进行各种测试并确定故障率。这些测试中存在相当大的差异，营销人员通常会“输入”最终数字。无论如何，他们都会尽力猜测平均每小时发生一次故障需要多少个驱动器。

对于驱动器较少的情况，你可以根据 MTBF 推断出故障的统计概率，但请记住，设计良好的产品中的故障应该遵循“浴缸”曲线- 即设备首次投入使用时和保修期过后的故障率较高，而中间阶段的故障率较低。

Question 3

它们是基于小样本和短时间的统计评估得出的。实际上没有普遍认可的方法或流程，所以这实际上只是愚蠢的“营销”。

这文章可能会对此进行更多解释。并且维基百科有一些公式可能就是您正在寻找的吗？

基本上，几乎所有产品（包括洗碗机等普通家用机器）都会运行若干个时间。这段时间内发生多少次故障可用于计算 MTFB。

当然，让产品经历整个生命周期是不可行的，例如 SSD，它会持续很长时间。它们主要受写入量限制，而不是机械故障（MTFB 就是为此而设）

Answer

它们是基于小样本和短时间的统计评估得出的。实际上没有普遍认可的方法或流程，所以这实际上只是愚蠢的“营销”。

这文章可能会对此进行更多解释。并且维基百科有一些公式可能就是您正在寻找的吗？

基本上，几乎所有产品（包括洗碗机等普通家用机器）都会运行若干个时间。这段时间内发生多少次故障可用于计算 MTFB。

当然，让产品经历整个生命周期是不可行的，例如 SSD，它会持续很长时间。它们主要受写入量限制，而不是机械故障（MTFB 就是为此而设）

Question 4

MTBF 与测量 SSD 驱动器耐久性无关，因为 SSD 对时间本身并不敏感（如普通旋转 HDD 驱动器），而是对 SSD 单元的重写次数敏感。更多SSD 的相关衡量指标是每日驱动器写入次数 (DWPD).例如某些企业级 SSD 磁盘 3.2TB 的耐久性将是 5 年内 3 DWPD。

有时，SSD 供应商会以（总）写入 TB 数 (TBW) 或“写入周期”来提供耐久性，这些指标可以轻松转换为 DWPD，反之亦然，从而了解给定 SSD 驱动器的时间和最大吞吐量。

对于给定的 3.2Tb SSD 驱动器的示例：
TBW = 驱动器大小 * 年数 * DWPD;
TBW = 3.2TB * 5*365 * 3d = 17520 TB（5 年）

如果驱动器提供每秒 80 MB 的可持续写入吞吐量，那么
写入周期 = DWPD * 年数；
WriteCycles = 3 * 365*5 = 给定磁盘的总写入周期数 5475

值得注意的是，我们正在计算最坏的情况，如果您为驱动器提供 100% 的利用率吞吐量（这很可能是不可能的）。

Answer