作为这方面的新手,我想知道是否有人可以帮助我诊断潜在的硬件问题。
通常情况下,我的系统运行良好,但当运行一些占用大量内存/CPU 的 Python 代码时,系统就会完全崩溃。我在日志中可以找到的主要错误代码如下:
mce: [Hardware Error]: CPU 11: Machine Check: 0 Bank 0: b200000000070005
mce: [Hardware Error]: TSC 0
mce: [Hardware Error]: PROCESSOR 0:50654 TIME 1568095380 SOCKET 0 APIC 18 microcode 200005e
谷歌搜索至少让我检查了我是否拥有最新的微代码(我有)以及我的系统是否是最新的(是的)。总体而言,我的系统运行良好,代码没有在其他机器上导致任何错误,所以这肯定是系统问题。只是现在还不确定从哪里开始解决这个问题。
我的设置:
Ubuntu 18.04.3 LTS
Intel i9-7940X @ 3.10GHz(14 核,28 线程)
64GB RAM
ASUS ROG STRIX X299-E Gaming MB
GeForce GTX 1050i 显卡
答案1
我记得这可能与热问题有关,因为您提到了崩溃前运行的 CPU 密集型 Python 代码。您能重现崩溃吗?您能监控 CPU 温度吗?
答案2
看来(至少目前)BIOS刷新解决了这个问题。回想起来,从其他帖子推断,可能是内核-BIOS不匹配首先导致了错误,但只有在使用所有CPU时才会导致系统崩溃。