这是我的配置:
- AMD 锐龙 9 7950X 16 核
- 技嘉X670E Aorus Master
- DDR5 海盗船复仇 5200 MHz 16 GB
- PNY Nvidia GeForce RTX 4080
我有 Windows 11 和 Ubuntu 23.04 双重启动。 Windows 运行良好。 Linux,每一个当我在电源循环(即“冷启动”)后打开电脑时,几分钟内就会挂起。挂起意味着屏幕冻结在我正在做的事情上,没有任何反应 - 即使是键盘。我必须对机器进行硬件重置。有时,几分钟后它会自行重新启动。
一旦重新启动,我就可以工作一整天而没有任何其他问题。我尝试:打开电脑,登录后重新启动。决不,无论如何它必须冻结。
我已经检查过的其他事情:
我有两个 DDR5 模块,但其中一个有缺陷,所以我将其移除。无论如何,故障的问题是不同的,并且发生在 Windows 和 Linux 上。
尝试将 RAM 模块移至另一个插槽(即从 A2 移至 B2)
运行 memtest86+ 几次
删除了显卡的专有驱动程序。目前我使用默认的开源 xserver-xorg-video-nouveau (无 GPU 加速)
尝试在 xorg 和 wayland 之间切换
检查了一些系统日志(dmesg、syslog、xorg),但我没有找到任何相关的内容(至少对我来说!)
更新至最新的软件包版本
从头开始重新安装Ubuntu
将 BIOS 更新至最新版本
添加了
pcie_aspm=off
内核选项
这个描述可以帮助你走上正确的道路吗?我还能做什么来找出挂起的原因?我应该在日志文件中查找什么内容?
更新
感谢用户 Artem S. Tashkinov,我发现在挂起期间机器仍然处于活动状态并接受 SSH 连接。
dmesg
明确指出 GPU 是罪魁祸首:
这里我读到这似乎是 nvidia 的一个错误,因为 - 就像用户一样 - 1. 无论我在做什么,即使根本没有任何活动,它都会发生(因此没有热/ps 原因) 2. 重新启动后,它工作正常一整天3.在Windows中完全没有问题。
我必须忍受它吗?或者有办法修复吗?
答案1
从 dmesg 中的错误来看:NVIDIA 驱动程序已在物理上“丢失”了您的 GPU。它不再存在于你的 Linux 系统中。
这些错误可能表明您的 GPU 出现了某种故障。
- 尝试重新安装(将其拆下并牢固地放回去,不要施加太大的压力)
- 尝试用更强大的型号替换您的 PSU
- 确保 GPU 的电源线牢固地固定在其连接器中
- 确保它的风扇正在旋转 - 看到
nvidia-smi
文本输出会很好 - 尝试在 Windows 中运行 OCCT(GPU/PSU 测试)
- 最后确保您运行的是最新的 Linux 驱动程序(撰写本文时版本为 530.41.03)。