调查潜在的 CPU 故障

调查潜在的 CPU 故障

在我用于计算的 Ubuntu 服务器上,我最近发现一些 CPU 密集型程序(GUROBI、CPLEX)经常出现段错误。

在与相应程序的技术支持人员沟通时,我被告知这可能是硬件问题。

服务器管理员进行了详细的内存测试,结果显示 RAM 模块看起来没有问题。

因此我使用了这个工具主语测试 CPU,在压力测试执行过程中多次出现以下两行:

[工人 #4 10 月 18 日 18:47] 严重错误:舍入为 0.498046875,预期小于 0.4 [工人 #4 10 月 18 日 18:47] 检测到硬件故障,请查阅 stress.txt 文件。

Stress.txt 文件本身并没有详细说明导致此错误的原因,所以我想问一下这里是否有人知道导致此问题的原因是什么?我是否可以执行其他测试来进一步解决问题?

在整个压力测试过程中,系统(和所有核心)的温度都很好(+69.0°C(高温=+80.0°C,临界温度=+98.0°C)),有问题的CPU是英特尔酷睿 i7-2600K CPU @ 3.40GHz并且没有以任何方式超频或修改。

有趣的是,如果我运行 mprime 只对 CPU 施加压力,所有测试都能顺利通过。只有当我让 mprime 对 CPU+RAM 施加压力时才会触发错误。

答案1

mprime 不会给出误报,因此您可以假设您遇到了硬件问题。您需要一次更换一个已知良好的部件,然后运行相同的测试。我会从 RAM 开始(尽管内存测试通过),然后是电源,然后是 CPU,然后是主板。

如果您没有备用系统,或者无法获得兼容部件,您可以尝试一些方法,但您可能找不到明确的原因。首先,检查所有风扇是否都在自由旋转。其次,检查电源的温度以及主板上的 VRM 和 PCH。如果您的服务器没有这些探头,请接地并用手指触摸它们。它们可能很热,但不会热到您无法将手指放在它们上面。第三,卸下除第一个插槽(主板上标有)之外的所有 RAM 模块,如果测试仍然失败,请将其与已卸下的其中一个插槽交换。如果两个或更多失败,您可以放心地认为不是 RAM 的问题。

相关内容