Ubuntu 18.04 冻结——GPU 已从总线上掉下来

Ubuntu 18.04 冻结——GPU 已从总线上掉下来

自从我在笔记本上安装了 Ubuntu 18.04 后,系统时不时就会死机。有时 5 分钟后,有时 12 小时后。我已经在这里读过很多类似的帖子,但到目前为止还没有办法解决这个问题。系统日志显示:

[409.510638] NVRM: GPU at PCI:0000:01:00: GPU-9fa50d45-1ce5-82a4-9edd-436827ce0bb2 
[409.510640] NVRM: Xid (PCI:0000:01:00): 79, pid=2976, GPU has fallen off the bus. 
[409.510641] NVRM: GPU 0000:01:00.0: GPU has fallen off the bus. 
[409.510694] NVRM: A GPU crash dump has been created. If possible, please run 
[409.510694] NVRM: nvidia-bug-report.sh as root to collect this data before 
[409.510694] NVRM: the NVIDIA kernel module is unloaded. 
[421.797707] sysrq: This sysrq operation is disabled. 
[421.869714] sysrq: This sysrq operation is disabled. 
[422.453723] sysrq: This sysrq operation is disabled. 
[422.933751] sysrq: Emergency Sync 
[422.935343] Emergency Sync complete 
[423.325743] sysrq: Emergency Remount R/O

发生这种情况时我什么也做不了。如果我在当前应用程序中按下 ctrl+s,则文件不会保存。我无法打开 tty。唯一可以正常工作的是“REISUB”和“REISUO”。因此我无法在重启之前执行 nvidia-bug-report.sh。

我正在运行最新的 nvidia 驱动程序,从那时起我就遇到了这个问题,我想我是从 440 开始的:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 495.44       Driver Version: 495.44       CUDA Version: 11.5     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Quadro P620         Off  | 00000000:01:00.0 Off |                  N/A |
| N/A   49C    P3    N/A /  N/A |    309MiB /  4042MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      2066      G   /usr/lib/xorg/Xorg                200MiB |
|    0   N/A  N/A      2550      G   /usr/bin/gnome-shell               40MiB |
|    0   N/A  N/A      3205      G   ...AAAAAAAAA= --shared-files       66MiB |
+-----------------------------------------------------------------------------+

在这台电脑上,我只使用了很短的一段时间的 Windows,但从来没有遇到过问题,所以我认为这是驱动程序问题,而不是硬件缺陷。你认为改用英特尔 i7 GPU 有意义吗?有没有简单的方法可以在 Ubuntu 中停用 nvidia GPU?

我很高兴收到任何提示。BR Michael

相关内容