Linux 在冷启动后冻结:“NVRM:GPU 已从总线上脱落”,Xid 79

Linux 在冷启动后冻结:“NVRM:GPU 已从总线上脱落”,Xid 79

这是我的配置:

  • AMD 锐龙 9 7950X 16 核
  • 技嘉X670E Aorus Master
  • DDR5 海盗船复仇 5200 MHz 16 GB
  • PNY Nvidia GeForce RTX 4080

我有 Windows 11 和 Ubuntu 23.04 双重启动。 Windows 运行良好。 Linux,每一个当我在电源循环(即“冷启动”)后打开电脑时,几分钟内就会挂起。挂起意味着屏幕冻结在我正在做的事情上,没有任何反应 - 即使是键盘。我必须对机器进行硬件重置。有时,几分钟后它会自行重新启动。

一旦重新启动,我就可以工作一整天而没有任何其他问题。我尝试:打开电脑,登录后重新启动。决不,无论如何它必须冻结

我已经检查过的其他事情:

  • 我有两个 DDR5 模块,但其中一个有缺陷,所以我将其移除。无论如何,故障的问题是不同的,并且发生在 Windows 和 Linux 上。

  • 尝试将 RAM 模块移至另一个插槽(即从 A2 移至 B2)

  • 运行 memtest86+ 几次

  • 删除了显卡的专有驱动程序。目前我使用默认的开源 xserver-xorg-video-nouveau (无 GPU 加速)

  • 尝试在 xorg 和 wayland 之间切换

  • 检查了一些系统日志(dmesg、syslog、xorg),但我没有找到任何相关的内容(至少对我来说!)

  • 更新至最新的软件包版本

  • 从头开始重新安装Ubuntu

  • 将 BIOS 更新至最新版本

  • 添加了pcie_aspm=off内核选项

这个描述可以帮助你走上正确的道路吗?我还能做什么来找出挂起的原因?我应该在日志文件中查找什么内容?

更新

感谢用户 Artem S. Tashkinov,我发现在挂起期间机器仍然处于活动状态并接受 SSH 连接。

dmesg明确指出 GPU 是罪魁祸首:

在此输入图像描述

这里我读到这似乎是 nvidia 的一个错误,因为 - 就像用户一样 - 1. 无论我在做什么,即使根本没有任何活动,它都会发生(因此没有热/ps 原因) 2. 重新启动后,它工作正常一整天3.在Windows中完全没有问题。

我必须忍受它吗?或者有办法修复吗?

答案1

从 dmesg 中的错误来看:NVIDIA 驱动程序已在物理上“丢失”了您的 GPU。它不再存在于你的 Linux 系统中。

这些错误可能表明您的 GPU 出现了某种故障。

  1. 尝试重新安装(将其拆下并牢固地放回去,不要施加太大的压力)
  2. 尝试用更强大的型号替换您的 PSU
  3. 确保 GPU 的电源线牢固地固定在其连接器中
  4. 确保它的风扇正在旋转 - 看到nvidia-smi文本输出会很好
  5. 尝试在 Windows 中运行 OCCT(GPU/PSU 测试)
  6. 最后确保您运行的是最新的 Linux 驱动程序(撰写本文时版本为 530.41.03)。

相关内容