硬件错误,可能与 CPU 微码有关?

硬件错误,可能与 CPU 微码有关?

作为这方面的新手,我想知道是否有人可以帮助我诊断潜在的硬件问题。

通常情况下,我的系统运行良好,但当运行一些占用大量内存/CPU 的 Python 代码时,系统就会完全崩溃。我在日志中可以找到的主要错误代码如下:

mce: [Hardware Error]: CPU 11: Machine Check: 0 Bank 0: b200000000070005
 mce: [Hardware Error]: TSC 0 
 mce: [Hardware Error]: PROCESSOR 0:50654 TIME 1568095380 SOCKET 0 APIC 18 microcode 200005e

谷歌搜索至少让我检查了我是否拥有最新的微代码(我有)以及我的系统是否是最新的(是的)。总体而言,我的系统运行良好,代码没有在其他机器上导致任何错误,所以这肯定是系统问题。只是现在还不确定从哪里开始解决这个问题。

我的设置:
Ubuntu 18.04.3 LTS
Intel i9-7940X @ 3.10GHz(14 核,28 线程)
64GB RAM
ASUS ROG STRIX X299-E Gaming MB
GeForce GTX 1050i 显卡

答案1

我记得这可能与热问题有关,因为您提到了崩溃前运行的 CPU 密集型 Python 代码。您能重现崩溃吗?您能监控 CPU 温度吗?

答案2

看来(至少目前)BIOS刷新解决了这个问题。回想起来,从其他帖子推断,可能是内核-BIOS不匹配首先导致了错误,但只有在使用所有CPU时才会导致系统崩溃。

相关内容