双 CPU 是否提供容错功能?

双 CPU 是否提供容错功能?

假设我购买了两个 Intel Xeon 并将它们安装到服务器级硬件中...如果一个 CPU 出现故障,另一个是否仍能运行并弥补不足,从而提供容错功能?

这似乎不太可能,但我想我会问一下,而不是做任何假设。

答案1

在普通的双插槽系统中,没有,尽管有些服务器允许热插拔处理器和 RAM。所以这些东西存在,但它们处于市场的非常高端。

这其实没有什么大不了的——在你的服务器中所有可能出现故障的部件中,处理器位于列表底部,紧挨着那些将主板固定在底盘上的小黄铜提升板。

答案2

说到 x86 商用硬件,如果系统正在运行,而 CPU 出现故障,系统通常会停止运行。但是,系统在重新启动后仍能正常运行,尽管速度会稍慢一些。

多 CPU 主要用于并行处理,并非真正用于容错。但如果有一个(或更多)CPU 发生故障时系统仍能启动,那就太好了。

我想说,你的 CPU 出现故障的可能性比 Mark Henderson 所说的要大一些,但可能性仍然很小。根据我的经验,这种情况大多发生在系统频繁过热并自动关闭时(在空调很差的办公室服务器机房中,这种情况很容易发生)。CPU 往往不太喜欢这种情况。

当然,如果你有一台不错的 IBM 大型机或类似机器,热插拔 CPU(主板)就足够“容易”了。

答案3

如果 CPU 发生故障(根据其他答案,这种情况极不可能发生),系统基本上无法恢复。根据故障方式,它可能最终以奇怪的方式破坏内存,或破坏进程表,或者谁知道还有什么。如果您有某种主动监控系统来监视 CPU 以确保其运行良好(并且能够回滚 CPU 在垂死挣扎期间所做的任何更改),那么这也将是另一个可能出现故障的系统,并且以编程方式确定软件故障非常困难(基本上,您实际上可以做到这一点的唯一方法是让另一个 CPU 在完全相同的时间执行完全相同的操作并比较结果 - 这最终会减慢速度,以至于从一开始就没有必要拥有另一个 CPU)。

话虽如此,尽管 CPU 故障很少发生,但增加系统中的 CPU 数量实际上会使故障率上升,因为现在可能出现故障的东西是原来的两倍。其他子系统也可能会出现故障,例如那些保持 CPU 缓存同步的子系统,功耗和热量输出的增加也是导致整个系统故障的因素之一(当然,主动冷却风扇是另一个故障点)。

答案4

CPU 故障可能很少见。故障可能会导致操作系统级别的其他问题。我不认为这是任何形式的容错。

相关内容