系统
Linux Mint 19.3 Cinnamon 64 位,基于 Ubuntu 18.04 LTS。
相关硬件
图形处理器:英伟达,英伟达精视 GTX 1060,最大Q值设计, 6 GB显存
CPU:英特尔酷睿i7-7700HQ
谁能告诉我以下内容是否意味着什么特别的我的 Nvidia 卡有问题吗?这可能只是 Google Chrome(稳定)端或nvidia-435
驱动程序中的软件错误?我怎样才能知道?
我只知道我的电脑冻结一两秒钟,然后是这样的:
dmesg
踪迹
[Thu Jan 16 16:01:38 2020] show_signal_msg: 23 callbacks suppressed
[Thu Jan 16 16:01:38 2020] GpuWatchdog[18858]: segfault at 0 ip 000055a9a5a6077d sp 00007f033f76c6c0 error 6 in chrome[55a9a1b25000+7170000]
[Thu Jan 16 16:01:38 2020] Code: 48 c1 c9 03 48 81 f9 af 00 00 00 0f 87 c9 00 00 00 48 8d 15 19 61 9c fb f6 04 11 20 0f 84 b8 00 00 00 be 01 00 00 00 ff 50 30 <c7> 04 25 00 00 00 00 37 13 00 00 c6 05 f1 6b a4 03 01 80 7d 8f 00
我当时在做什么
我正在玩一款 HTML5 游戏(Forge of Empires)。
答案1
不,这不是您的 Nvidia 卡有问题。 Chrome 也不是。
首先发生的是 Nvidia 软件崩溃,停止渲染管道。然后,几秒钟后,chrome 检测到 GPU 不再渲染,尝试处理该问题,但失败并抛出段错误。
当机器处于崩溃状态时,您通过 ssh 进入并运行“top”,您将看到两个进程irq/75 nvidia
并nv_queue
交替以 100% cpu 运行(系统上的中断号可能不同)。
此外,在 GpuWatchdog 出现之前几秒钟,您的系统日志可能包含来自 nvidia 驱动程序的一些消息:
Feb 10 17:00:24 natascha kernel: [157260.734117] NVRM: GPU at PCI:0000:08:00: GPU-f622f482-2ad1-4992-4d8a-9d62b465e084
Feb 10 17:00:24 natascha kernel: [157260.734120] NVRM: GPU Board Serial Number:
Feb 10 17:00:24 natascha kernel: [157260.734124] NVRM: Xid (PCI:0000:08:00): 61, pid=1391, 0cde(308c) 00000000 00000000
有关该问题的报告遍布互联网;我还没有找到任何修复。我在我的新电脑上遇到了同样的问题,不运行 chrome 并不能阻止崩溃,但阻止了系统日志消息;从 435 恢复到 430 驱动程序使问题消失(到目前为止)。
更新:430 个驱动程序也会发生崩溃。 440 驱动程序(不属于 Ubuntu)似乎解决了这个问题。至少我不再遇到这个问题了,amrits 的帖子https://devtalk.nvidia.com/default/topic/1060783/linux/random-xid-61-and-xorg-lock-up/7证实了这一点。
由于 440 驱动程序不属于 Ubuntu 发行版,这就是我所做的 - 我从以下位置获得此信息https://linuxconfig.org/how-to-install-the-nvidia-drivers-on-ubuntu-19-10-eoan-ermine-linux这是关于 Ubuntu 19.10 的,但也适用于 18.04:
sudo -i
add-apt-repository ppa:graphics-drivers/ppa
apt update
此时,ubuntu-drivers devices
除其他外,应输出:
# ubuntu-drivers devices
== /sys/devices/pci0000:00/0000:00:03.1/0000:08:00.0 ==
modalias : pci:v000010DEd00001F02sv000010DEsd00001F02bc03sc00i00
vendor : NVIDIA Corporation
driver : nvidia-driver-440 - third-party free recommended
然后就可以安装驱动了
apt install nvidia-driver-440
由于您无论如何都需要重新启动才能激活新驱动程序,因此我建议您也更新其余的软件:
apt upgrade
apt autoremove
reboot
6 月 15 日更新 - 根据 nvidia 的说法,仍然没有驱动程序修复,他们无法重现该问题。请参阅他们论坛上的帖子。但是,当 GPU 从省电模式进入使用更多电量的模式时,某些主板/GPU 组合上似乎会出现此问题。强制 GPU 达到更高的频率似乎可以防止这种情况发生,一些用户报告了以下解决方法:
nvidia-smi -pm ENABLED
sudo nvidia-smi -lgc 1000,1815
(每次重新启动时都必须重复此操作)
这为卡设置了永久(直到重新启动)更高的频率,导致更多的功耗和可能更短的使用寿命,但似乎可以解决崩溃问题,因此可能对许多用户来说更可取。