平均故障间隔时间可能难以解释,但如果您有一些硬数据,则可以使用大量的统计方法。
问题是,现在没有人再报告他们的 MTBF 数值了。(除了硬盘制造商。)
在哪里你去查找组件和服务器的 MTBF 数据?
答案1
为什么 MTBF 并不重要
平均故障间隔时间并不像不可纠正错误率那么重要。MTBF 处理的是部件(读取驱动器)的完全故障。但是,当单个位错误会导致 RAID 5 崩溃并导致热备用启动时,该数字毫无意义。
虽然近年来专业级和消费级硬盘的 MTBF 增加了一个数量级,但不可纠正错误率却保持相对稳定。对于消费级 SATA 硬盘,该比率估计为 10^14 位,即每读取 12 TB 数据会出现 1 位错误,来源。
为什么你应该为你的 RAID 5 阵列而担心
所以,这就是仅有的全新 2Tb 硬盘 6 次读取。读取 12Tb 数据需要多长时间?比该硬盘的 MTBF 短很多。
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
更令人担忧的是,由如此大的驱动器组成的 RAID 5 阵列发生双重读取失败的可能性。对于 7 个 1Tb 驱动器的 RAID 5 阵列,在进行 RAID 重建时发生第二次读取失败的可能性为 50%。
答案2
人们认为 MTBF 数据不适用于复杂系统,这真是太可惜了。真正的问题(据我所知)是制造商没有其硬件模块的 MTBF 数据。这些数据本来就应该可用。戴尔说“戴尔不再列出其服务器的具体 MTBF。”这真是太糟糕了!他们还不如说“我们的产品确实不够可靠,不能用于需要 MTBF 数据的地方”。
可靠性工程师(或担任 RE 职务的人)应该限制可用性研究的范围。这通常仅限于硬件模块。
至于对构成故障的分类......这就是我们进行 FMECA 分析的原因。
当然,系统很复杂,故障模式包括软件故障,但这通常不是研究范围。我们需要硬件的 MTBF 数据。请您的销售人员提供此数据。这是他们的技术责任,向您提供此数据... 如果他们拒绝或回避,请前往拥有电信级服务器且具有硬件强制可用性数据的地方。
答案3
我在公司支持网站上看到过 MTBF 报告。请咨询您的销售人员或 SE 以获取相关信息。
答案4
不幸的是,MTBF 在现代服务器中不是一种实用或可靠的测量方法。MTBF 的概念是,如果特定型号/配置被许多人长期使用,我们就可以知道它的可靠性。
如今,我们大多数人都乐意用潜在的额外可靠性来换取经过验证的额外性能和能效。例如,你会因为可靠性得到验证而使用 18-24 个月前的硬件来构建新服务器吗?还是直接使用具有更多内核、更多马力和更多能效的上一代 CPU?
此外,与老式电话系统不同,系统是高度定制的,当然,严重依赖软件。BIOS 版本 x.xx 或驱动程序版本 y.yyy 有多可靠?最新的 OS/DB/应用服务器补丁是否会提高稳定性,还是会导致稳定性下降?世界上有多少服务器实际上使用与您完全相同的硬件/堆栈版本组合?
如果您需要高可用性,那么您无论如何都需要为系统添加冗余(双机、集群、热备、DRP 等等)。因此,每个硬件组件的相对可靠性通常不是一个重要因素,因为您构建的基础设施可以承受单个组件故障。只需接受不确定性(可靠性具有追溯力)并进行相应规划。