CPU 故障最常见的原因是什么?
在完美运行的 CPU 和死机的 CPU 之间是否存在中间状态?
答案1
CPU 可能只需要一个晶体管发生故障就会停止工作 - 而由于现代 CPU 中有数百万个晶体管,您可能会问为什么这种情况不会经常发生。
并且,根据晶体管在 CPU 中的位置,效果可能会有所不同,但我认为我们不能预期性能会出现逐步下降:ALU 中的故障可能直到执行特定指令时才会被注意到,并且某些指令的执行频率会较低。
因此,当晶体管发生故障时,CPU 会突然死机。这可能是由于计算机芯片缺陷导致压力过大,因此时间可能是一个因素。
过热会导致构成晶体管的硅中的微小杂质扩散并改变工作参数。热量是晶体管运行不可避免的后果,因此冷却不足最终可能导致故障。
其他原因可能包括 CPU 芯片封装内的互连出现故障,但制造商一直在寻找更可靠的互连和更好的散热的改进封装方法。
答案2
说实话,CPU 故障没有常见原因……至少相对于计算机的其他部件而言。CPU 通常是最可靠计算机的一部分。它们不会经常发生故障。
相反,你应该注意那些有移动部件的东西是否会发生故障:传统硬盘、光驱和风扇。最近,我们还需要将固态硬盘添加到这个列表中,即使它们没有移动部件。电容器的寿命也是有限的,因此使用电容器的电源和主板可能会成为问题。有时你也会有一根坏的内存条,但我从来都不确定它们为什么会坏。
现在,在了解了计算机中的大多数其他部件之后,我们终于要来谈谈 CPU。即使发生故障,通常是因为冷却风扇(再次是移动部件)先出现故障,然后 CPU 过热。
答案3
除了这里提到的其他原因之外,内部连接也可能是断裂的。有几种不同的技术用于将内部“芯片”引线连接到外部封装引线,所有这些技术都可能出现故障。
这种故障可能是过热导致的,即使没有过热,故障发生的可能性也会随着“热循环”而增加。故障可能一开始是间歇性的(尽管发生时通常会导致严重崩溃),但随着系统循环,故障会变得越来越持久。
此类故障类似于因封装/插座连接不良等原因而导致的故障。
[添加:] 我注意到没有提到“晶须”。IC 和非常小的印刷电路的一个大问题是金属“晶须”,它们从镀层布线中长出,并在相邻的“电线”之间短路。当您取出所有铅时,这尤其成问题(参见“RoHS”),因为通常会将铅添加到导线合金中以防止晶须。当然,随着温度升高,这个问题会变得更加严重。
答案4
IEEE 的 Spectrum 杂志上发表了一篇关于“晶体管老化”主题的有趣文章(http://spectrum.ieee.org/semiconductors/processors/transistor-aging)列出了几种可能导致单个晶体管失效的基本机制,这实际上可能会使整个芯片的计算能力降低到土豆(或砖头)的水平。