Google Chrome 中的段错误 - 与 Nvidia 卡相关吗?我怎样才能知道?

Google Chrome 中的段错误 - 与 Nvidia 卡相关吗?我怎样才能知道?

系统

Linux Mint 19.3 Cinnamon 64 位,基于 Ubuntu 18.04 LTS。


相关硬件


谁能告诉我以下内容是否意味着什么特别的我的 Nvidia 卡有问题吗?这可能只是 Google Chrome(稳定)端或nvidia-435驱动程序中的软件错误?我怎样才能知道?

我只知道我的电脑冻结一两秒钟,然后是这样的:

dmesg踪迹

[Thu Jan 16 16:01:38 2020] show_signal_msg: 23 callbacks suppressed
[Thu Jan 16 16:01:38 2020] GpuWatchdog[18858]: segfault at 0 ip 000055a9a5a6077d sp 00007f033f76c6c0 error 6 in chrome[55a9a1b25000+7170000]
[Thu Jan 16 16:01:38 2020] Code: 48 c1 c9 03 48 81 f9 af 00 00 00 0f 87 c9 00 00 00 48 8d 15 19 61 9c fb f6 04 11 20 0f 84 b8 00 00 00 be 01 00 00 00 ff 50 30 <c7> 04 25 00 00 00 00 37 13 00 00 c6 05 f1 6b a4 03 01 80 7d 8f 00

我当时在做什么

我正在玩一款 HTML5 游戏(Forge of Empires)。

答案1

不,这不是您的 Nvidia 卡有问题。 Chrome 也不是。

首先发生的是 Nvidia 软件崩溃,停止渲染管道。然后,几秒钟后,chrome 检测到 GPU 不再渲染,尝试处理该问题,但失败并抛出段错误。

当机器处于崩溃状态时,您通过 ssh 进入并运行“top”,您将看到两个进程irq/75 nvidianv_queue交替以 100% cpu 运行(系统上的中断号可能不同)。

此外,在 GpuWatchdog 出现之前几秒钟,您的系统日志可能包含来自 nvidia 驱动程序的一些消息:

Feb 10 17:00:24 natascha kernel: [157260.734117] NVRM: GPU at PCI:0000:08:00: GPU-f622f482-2ad1-4992-4d8a-9d62b465e084
Feb 10 17:00:24 natascha kernel: [157260.734120] NVRM: GPU Board Serial Number: 
Feb 10 17:00:24 natascha kernel: [157260.734124] NVRM: Xid (PCI:0000:08:00): 61, pid=1391, 0cde(308c) 00000000 00000000

有关该问题的报告遍布互联网;我还没有找到任何修复。我在我的新电脑上遇到了同样的问题,不运行 chrome 并不能阻止崩溃,但阻止了系统日志消息;从 435 恢复到 430 驱动程序使问题消失(到目前为止)。


更新:430 个驱动程序也会发生崩溃。 440 驱动程序(不属于 Ubuntu)似乎解决了这个问题。至少我不再遇到这个问题了,amrits 的帖子https://devtalk.nvidia.com/default/topic/1060783/linux/random-xid-61-and-xorg-lock-up/7证实了这一点。

由于 440 驱动程序不属于 Ubuntu 发行版,这就是我所做的 - 我从以下位置获得此信息https://linuxconfig.org/how-to-install-the-nvidia-drivers-on-ubuntu-19-10-eoan-ermine-linux这是关于 Ubuntu 19.10 的,但也适用于 18.04:

sudo -i
add-apt-repository ppa:graphics-drivers/ppa
apt update

此时,ubuntu-drivers devices除其他外,应输出:

# ubuntu-drivers devices
== /sys/devices/pci0000:00/0000:00:03.1/0000:08:00.0 ==
modalias : pci:v000010DEd00001F02sv000010DEsd00001F02bc03sc00i00
vendor   : NVIDIA Corporation
driver   : nvidia-driver-440 - third-party free recommended

然后就可以安装驱动了

apt install nvidia-driver-440

由于您无论如何都需要重新启动才能激活新驱动程序,因此我建议您也更新其余的软件:

apt upgrade
apt autoremove
reboot

6 月 15 日更新 - 根据 nvidia 的说法,仍然没有驱动程序修复,他们无法重现该问题。请参阅他们论坛上的帖子。但是,当 GPU 从省电模式进入使用更多电量的模式时,某些主板/GPU 组合上似乎会出现此问题。强制 GPU 达到更高的频率似乎可以防止这种情况发生,一些用户报告了以下解决方法:

nvidia-smi -pm ENABLED
sudo nvidia-smi -lgc 1000,1815

(每次重新启动时都必须重复此操作)

这为卡设置了永久(直到重新启动)更高的频率,导致更多的功耗和可能更短的使用寿命,但似乎可以解决崩溃问题,因此可能对许多用户来说更可取。

相关内容