如何确定哪些故障硬件导致了硬崩溃/重启?

如何确定哪些故障硬件导致了硬崩溃/重启?

最近,我的电脑开始出现严重崩溃/重启。当处于中等负载时,电脑似乎会随机重启,关闭 BIOS 并在几秒钟后自行重启。

我首先想到的是温度问题,但监测这些重启时的温度表明它们从未过高,CPU 大约为 70°C,GPU 也是如此。

我有一个双启动系统,问题同时发生在 Windows 11 和 Ubuntu 上。它不会在两个操作系统的任何日志中留下任何痕迹,无论是在 Windows 中的事件注册表中(除了内核电源通知)还是在 Ubuntu 中的 kern.log 中。这非常像有人只是拔了电源线,计算机就关机了,没有记录任何原因。

我还找不到可靠的方法来重现该问题:运行压力测试、用 Python 故意制作的繁重程序、RAM 测试程序或 GPU 繁重的应用程序(如 ML 或游戏)都会导致没有结果。

有时它会连续运行几个小时,有时它会在需要稍微繁重的操作时崩溃。

我不知道如何知道我的设置中哪个硬件出现故障。

我会考虑 PSU 或 GPU,因为它们是计算机构建时较旧的部件,但我不确定,所以我现在不会投资任何新硬件。

设置如下:

GPU: MSI 1080ti 
CPU: AMD Ryzen 9 3950x
RAM: 32gb 3600mhz
PSU: EVGA Supernova G31000W  Gold
HDD: Samsung 990 pro 2TB

我可以做哪些测试来指出我的计算机的哪个部件出现故障?如果我怀疑电源坏了,我该如何重现问题以确保问题确实存在?

我也在 askubuntu 论坛上问过类似的问题,您可以在那里找到一些 ubuntu 日志: https://askubuntu.com/q/1469866/959655

相关内容