CPU 或主板稳定性问题

CPU 或主板稳定性问题

我们组装的是 MSI B550 A PRO,配有 Ryzen7 5800X 和两个 16GB g.skill F4-3200C16-16GVK(位于插槽 a2+b2)以及 RTX3060。电源和散热器非常安静,确实非常安静且功能强大。热量不是这个系统的问题。“办公室”工作中的 CPU 温度为 40...50 度,只有在重度游戏和性能测试中,它接近 90 度,但从未超过(在这种情况下频率受到限制)。

该系统运行了两年,只偶尔出现一些故障——事后看来,这很可能表明有些地方出了问题。

主板 bios 是最新的。所有固件都是最新的。

昨天,我在 Linux 中使用“s-tui”进行了 3 小时以上的“压力”测试,没有出现任何问题。同时,我还运行了 2 小时的“gpu_burn”,没有任何问题或错误。CPU 始终处于最大负荷状态,所有核心都在 4.5GHZ 左右,温度为 90 度。GPU 的温度从未超过 55 度。

虽然这很好,但如今这种情况变得很不常见:

在过去的几天里,系统变得越来越不可用,经常在几分钟后崩溃,大多没有错误消息,并且会出现各种随机情况。无论是在低负载或高负载下,还是在启动过程中,任何时候。

当我启动 memtest86+ 时,它可以连续运行数小时而不会出现任何错误。在这种情况下,CPU 温度达到 40..50 度,一次完整的运行大约需要一个小时。我甚至在 BIOS 中调整了内存设置,内存速度略有不同,但从未出现任何错误。

我还对两个 M2 SDD 驱动器进行了广泛的测试,它们也没有任何错误。

我们通常使用 Linux 进行办公和游戏工作(ubuntu 或 arch)。但也有普通的 Windows。现在,这些都无法真正启动,也无法稳定运行几分钟以上。大多数情况下,系统只是重新启动,有时也会冻结。在 Minecraft 中会出现许多“错误 6”,这是以前从未出现过的。

在极少数情况下,我的手机会从屏幕上抓取以下错误消息:

在 ubuntu 启动失败期间:

mce: [Hardware Error]: CPU 9: Machine Check:0 Bank 1: baa0000006
mce: [Hardware Error]: TSC 0 MISC d012000100000000
mce: [Hardware Error]: PROCESSOR 2:a20f10 TIME 1698596062 SOCKET 0 APIC 3 microcode a20102b
NVRM: loading NVIDIA UNIX x86_64 Kernel Module 545.23.06 

在运行一些 ubuntu shell 代码时:

[Hardware Error]: Corrected error, no action required 
[Hardware Error]: CPU:9 (19:21:0) MC1_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|-|-|-]: 0x9c20000006010859
[Hardware Error]: Error Addr: 0x00000000f7c1b8d0 
[Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a008323
[Hardware Error]: Instruction Fetch Unit Ext. Error Code: 1, IC Microtag or Full Tag Multi-hit Error.
[Hardware Error]:  cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout)

并且/var/log/kern.log经常会出现许多所有 CPU 核心的此类 MCE 状态转储(我现在无法访问日志)。

Windows 启动结束时

Stillstandcode: IRQL NOT LESS OR EQUAL

新问题:经过 1:42 小时的 memtest86+ 测试,第三遍中没有出现任何内存错误

Unexpected interrupt on CPU1

Type: Invalid Op
IP: 10b974
CS: 10
Flag: 10002
Code: 0
DS: 18
ES: 18
SS: 18
rax: 75c08445
rbx: 0
rcx: 1
rdx: 0
rdi: 4b
rsi: 1151ce
rbp: 116019
rsp: 12b220

在我看来,这很像是 CPU 出了问题。几十年来,我从来没有遇到过 CPU 故障。特别是在长时间工作并得到良好维护(没有超频、没有过热等)之后。

我可以对我的系统进行更多诊断,以便更好地了解到底是什么出了问题?恢复正常运行系统的最佳策略是什么?新 CPU?新 CPU+主板?首先检查 RTX3060 是否真的没问题 - 但我没有迹象表明它有什么问题?

答案1

让您知道,实际上只有 CPU 有缺陷。

然而,找到答案的唯一方法就是通过艰难的方式。更换个别部件,寻找测试系统,不断运行大量压力测试和诊断。

对我们来说,一个主要提示是 memtest86+ 在多次运行中崩溃。从来没有内存问题的迹象,崩溃显然指向了 CPU(或主板)。我们交换了 CPU 和主板以确保万无一失...

相关内容