硬件组件的相对故障率

硬件组件的相对故障率

假设我正在设置一台单机服务器。如果不知道其中的具体组件(并且无法查找它们的 MTBF),那么服务器中硬件组件的典型相对故障率是多少?

同样,在企业使用的所有服务器中,最常更换的组件的排名是怎样的?

答案1

关于硬盘,许多人误解了 MTBF,认为 MTBF 为 100,000 小时的硬盘平均可以使用 11.5 年。制造商的意思是,在大量硬盘(N 个)中,所有硬盘在其使用寿命内,每 100,000/N 小时就会有一个硬盘出现故障。如果您有 100,000 个硬盘,每个硬盘的 MTBF 为 100,000 小时,那么您应该预计平均每小时就会有一个硬盘出现故障。

硬盘故障的频率比人们预期的要高。备份、备份、备份。

任何带有运动部件的设备都可能出现故障,包括磁带驱动器、软盘驱动器、风扇等。我曾遇到过显卡风扇坏掉,导致显卡报废的情况。我曾遇到过电源风扇坏掉,导致计算机的大部分部件报废的情况。(从那时起,我再也没有组装过没有额外风扇的系统。)磁带驱动器需要格外小心,否则其使用寿命将大大缩短。这是因为它不仅会移动,而且磁带头还会与磁带介质进行物理接触——至少在许多类型的磁带驱动器中都是如此。用普通磁带清洁介质过于频繁地清洁驱动器会磨损磁带头。

我曾经遇到过内置芯片组风扇坏掉的情况,但到目前为止没有任何影响。到目前为止,我从未遇到过 CPU 风扇坏掉的情况,但我倾向于经常升级,因此我可能通过升级来避免这种情况。(笑)

我每隔几年就会更换一次磁盘驱动器(主要是因为可用容量增长如此之快),因此硬盘驱动器故障相对较少。我遇到过许多电源故障——对于一个除了风扇之外没有其他移动部件的组件,故障次数比我天真预期的要多得多。我认为电源不稳定是许多电源故障的原因。

到目前为止,在我从事计算的几十年中,我从未遇到过 CPU、RAM 或主板故障,除非有合理的原因,例如过热(风扇坏了)。然而,多年来,一些品牌的主板的使用寿命比预期的要短得多,原因是零件质量低劣,通常是电源进入主板的电容器制造不当。

任何插入式连接的地方都是故障点。我曾经遇到过计算机故障(大多是很久以前),原因是廉价的镀锡连接器。锡氧化了,随着时间的推移,连接变得越来越不可靠。最后,我拔掉了所有的插头,用橡皮擦擦锡连接器以去除氧化物,再把所有东西插回去,又可以正常工作一段时间了。金连接器之所以成为首选连接器,是有原因的。

从我在公司环境中看到的情况以及我在家里遇到的情况来看,组件似乎按以下顺序发生故障,从最频繁到最不频繁。

  1. 硬盘驱动器和磁带驱动器
  2. 电源
  3. 粉丝
  4. 遥远地,其他一切

上面没有提到,但你应该预料到全部闪存棒/卡最终会报废,具体取决于使用频率。但考虑到大多数此类卡的平均使用率,这将需要很长时间。闪存会随着使用而“磨损”,存储单元最终会失效。

答案2

据传,电池

我没有确切的数据,但我一生中更换的故障或性能不佳的电池比任何其他组件都要多。这包括不间断电源、笔记本电脑、控制器电池、手机电池,可能还有很多其他电池。

这让我总是为服务器机房的UPS 储备额外的电池组。

答案3

任何移动的东西,在服务器中基本上就是硬盘和风扇,比固态组件更容易发生故障。电源虽然排在第二位,但值得注意。其他所有东西(CPU、内存等)都非常可靠……这并不是说不会发生故障,但在你保护好磁盘/风扇/电源底座后,你绝对应该担心这个问题。

答案4

今天正在为我的公司研究这个问题,我发现了微软白皮书的摘要extremetech.com这张图表显示了 8 个月期间的情况:

降频导致的故障率

额定列对我计算戴尔硬件保修的价值来说是一个不错的参考(我们只是要投资额外的硬件)。

完整的白皮书在这里:http://research.microsoft.com/apps/pubs/default.aspx?id=144888

相关内容