自升级到 23.04 以来经常崩溃

自升级到 23.04 以来经常崩溃

自从升级到 23.04 以来,我遇到了太频繁的(几乎每天)崩溃:要么我的 Gnome 会话终止,将我带回到登录屏幕,要么是一些与 GPU 相关的崩溃,最终导致屏幕在黑屏和纯文本屏幕之间缓慢闪烁(对 CTRL+ALT+F1 等键盘输入没有反应)。

如果我尝试在 Firefox 中使用 Google 地图,后者尤其经常发生。我有一个内置 GPU 的 AMD CPU,日志表明它与此有关:

kernel: [198871.116760] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx_high timeout, signaled seq=3351772, emitted seq=3351774
kernel: [198871.117505] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information: process gnome-shell pid 3623 thread gnome-shel:cs0 pid 3668
kernel: [198871.118214] amdgpu 0000:07:00.0: amdgpu: GPU reset begin!
kernel: [198871.268814] [drm] psp gfx command UNLOAD_TA(0x2) failed and response status is (0x117)
kernel: [198871.295338] amdgpu 0000:07:00.0: amdgpu: MODE2 reset
kernel: [198871.295395] amdgpu 0000:07:00.0: amdgpu: GPU reset succeeded, trying to resume
kernel: [198871.295597] [drm] PCIE GART of 1024M enabled.
kernel: [198871.295599] [drm] PTB located at 0x000000F47FC00000
kernel: [198871.295660] [drm] PSP is resuming...
kernel: [198871.996967] [drm] reserve 0x400000 from 0xf47f800000 for PSP TMR
kernel: [198872.261894] amdgpu 0000:07:00.0: amdgpu: RAS: optional ras ta ucode is not available
kernel: [198872.272774] amdgpu 0000:07:00.0: amdgpu: RAP: optional rap ta ucode is not available
kernel: [198872.278755] [drm] psp gfx command LOAD_TA(0x1) failed and response status is (0x7)
kernel: [198872.278899] [drm] psp gfx command INVOKE_CMD(0x3) failed and response status is (0x4)
kernel: [198872.278906] amdgpu 0000:07:00.0: amdgpu: Secure display: Generic Failure.
kernel: [198872.278914] amdgpu 0000:07:00.0: amdgpu: SECUREDISPLAY: query securedisplay TA failed. ret 0x0
kernel: [198872.278921] amdgpu 0000:07:00.0: amdgpu: SMU is resuming...
kernel: [198872.279350] amdgpu 0000:07:00.0: amdgpu: SMU is resumed successfully!
kernel: [198872.279790] [drm] DMUB hardware initialized: version=0x01010026
kernel: [198872.627457] [drm] kiq ring mec 2 pipe 1 q 0
kernel: [198872.810879] amdgpu 0000:07:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring kiq_2.1.0 test failed (-110)
kernel: [198872.811161] [drm:amdgpu_gfx_enable_kcq [amdgpu]] *ERROR* KCQ enable failed
kernel: [198872.811379] [drm:amdgpu_device_ip_resume_phase2 [amdgpu]] *ERROR* resume of IP block <gfx_v9_0> failed -110
kernel: [198872.811597] amdgpu 0000:07:00.0: amdgpu: GPU reset(2) failed
kernel: [198872.811649] amdgpu 0000:07:00.0: amdgpu: GPU reset end with ret = -110
kernel: [198872.811652] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* GPU Recovery Failed: -110
rtkit-daemon[2054]: message repeated 3 times: [ Supervising 14 threads of 11 processes of 1 users.]
firefox_firefox.desktop[6647]: [GFX1-]: GFX: RenderThread detected a device reset in PostUpdate
google-chrome.desktop[5953]: [5992:5992:0525/212139.578910:ERROR:shared_context_state.cc(870)] SharedContextState context lost via ARB/EXT_robustness. Reset status = GL_INNOCENT_CONTEXT_RESET_KHR
google-chrome.desktop[5953]: [5992:5992:0525/212139.579172:ERROR:gpu_service_impl.cc(986)] Exiting GPU process because some drivers can't recover from errors. GPU process will restart shortly.
gnome-shell[3623]: amdgpu: The CS has been rejected (-125), but the context isn't robust.
gnome-shell[3623]: amdgpu: The process will be terminated.

即使我不触摸计算机,也会发生前者(特别是?),并在系统日志中留下以下内容:

... gnome-shell[118241]: meta_monitor_manager_get_logical_monitor_from_number: assertion '(unsigned int) number < g_list_length (manager->logical_monitors)' failed
... gnome-shell[118241]: meta_workspace_get_work_area_for_monitor: assertion 'logical_monitor != NULL' failed
[repeats]
... thunderbird[119653]: Couldn't map window 0x7f716cad7f40 as subsurface because its parent is not mapped.
[repeats]
... kernel: [224847.218436] gnome-shell[118241]: segfault at ffffffffffffff48 ip 00007f0fbe6b5ebb sp 00007ffcf07dc3d8 error 5 in libmutter-clutter-12.so.0.0.0[7f0fbe653000+8b000] likely on CPU 14 (core 7, socket 0)

我正在运行 Wayland/Gnome/Pipewire,并且将外接显示器和内置显示器一起使用。

使我的计算机快速恢复可用状态的最佳方法是什么?

答案1

编辑 #3:(由于某种原因而乱序)- 这个可能是我们的问题和我们的解决方案:https://bugs.launchpad.net/ubuntu/+source/mutter/+bug/2012230 它似乎在 6 月 13 日被移植到 Lunar Lobster,应该存在于任何最新的系统上,但我们在过去 48 小时内仍然看到崩溃,所以我仍然试图确定我们是否有“修复”版本

编辑 #4:(顺序不对,但没关系)- 如果我们的错误确实是上述链接,那么截至 7 月 2 日,它已首先在 Mantic Minotaur(mutter 44.2-3)中得到修复,并已针对 Lunar Lobster 进行分类(确认),但尚未构建反向移植修复。假设(这是一个错误的假设,但让我们先假设一下)Lunar 和 Mantic 都从 Mutter 44.2-0 开始,并且他们在 44.2-3 上将修复程序放入 Mantic,那么我们应该会看到 Lunar 的修复程序数量超过 44.2-0,并检查以下内容:

apt-cache policy mutter

我发现我的分数仍为 44.2-0,所以我会估计对于我们的 Lunar 用户来说,目前还没有提供任何可用的修复方法。

编辑 #1:我尝试评论而不是回答,但我需要 50 点声望才能评论,而回答则不需要声望,因为 #reasons。所以很抱歉,这不是答案。

编辑 #2:7 月 3 日(2 周后) - 三台台式机(两台是我的,还有我最老的那台)现在几乎每天都会遇到这种 wayland-gnome 崩溃。它们都运行各种清洁度和内核的 Lunar Lobster,但都是 AMD cpu(所有不同系列但都是 AMD)和所有 AMD gpu(所有不同系列但都是 AMD),现在几乎每天都会崩溃。跟踪系统日志显示 gnome 段错误上出现了不同的二进制文件,例如 chrome 和 libre office(soffice.bin),所以我不知道这里的根本原因是什么。在我的工作电脑(最干净、最原始的 Lunar Lobster)上,我切换到 xorg,从那时起就再也没有崩溃过(大约 7 天没有崩溃)。在我的个人电脑上,我切换到 xorg,3 天内没有崩溃过,时间不足以真正得出崩溃与 Wayland 无关的确切结论,但总归是有点问题。

原始帖子:

我有一台 ryzen 1700 和一台 amd gpu(独立),过去几周我在 23.04 中遇到了类似的问题。syslog 有与您相同的错误(没有唯一位):

kernel gnome-shell segfault at ffffffffffffff48 error 5 in libmutter-clutter-12.so.0.0.0 likely on CPU core socket

但大约 5 秒钟后,我的桌面“恢复”了,退出了所有内容并返回到登录屏幕。跟踪系统日志我无法判断崩溃报告是否已成功发送,所以我不知道他们是否知道这一点。我的谷歌只显示了你的帖子与此有关。

在崩溃之前,唯一引人注目的是 chrome + wayland 熔化 -

google-chrome.desktop ERROR:wayland_frame_manager.cc(521) The server has buggy presentation feedback. Discarding all presentation feedback requests in all frames except the last 3.

答案2

更新日期:7/3/2023

我找到了有关升级驱动程序的答案,今天,很长一段时间以来第一次没有发生一次崩溃。

我现在正在运行主线的 Ubunut 6.4 内核,但仍然没有修复崩溃问题。然后我从这里更新了驱动程序:

https://launchpad.net/~oibaf/+archive/ubuntu/graphics-drivers

按照这些说明操作后,一整天都没有遇到 gnome-shell 崩溃的情况。希望我们能走上稳定之路。

[上一个答案] 不是答案,也无法评论,抱歉。

完全一样的问题。我现在运行的是 Ubuntu 23.04,内核是 6.4 rc6,希望能修复这个问题,但什么都没有。我尝试过从 6.3 内核到 6.3.7 内核,但都没有成功。

这是 dmesg,与上面描述的完全相同的行为,登录时崩溃。

[2023 年 6 月 20 日星期二 12:54:26] show_signal_msg: 已抑制 49 个回调

[2023 年 6 月 20 日星期二 12:54:26] gnome-shell[73273]: 位于 ffffffffffffff48 ip 00007fcdde316ebb sp 00007ffd254ea428 的段错误,libmutter-clutter-12.so.0.0.0[7fcdde2b4000+8b000] 中的错误 5 可能出现在 CPU 6(核心 3、插槽 0)上

[2023 年 6 月 20 日星期二 12:54:26] 代码:30 48 85 c0 74 09 c3 0f 1f 84 00 00 00 00 00 48 8b 47 68 48 85 c0 75 ee 48 8b 47 28 c3 66 90 f3 0f 1e fa 48 63 05 b5 e7 07 00 <48> 8b 44 38 28 c3 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 40 00 f3

硬件是配备 Radeon 680M GPU 的联想 T14s Gen3 AMD Ryzen Pro 5。

答案3

我使用的是 23.04。同样的问题,随机崩溃。一开始是 SSD 驱动器即将损坏,使用 smartmontools 检查,所有报告均正确,从专有驱动程序更新到最新的 nVidia 驱动程序 535,升级到内核 6.4.3,没有效果...

但是注意到笔记本电脑(HP Pavilion 15-csxxx,使用 NVIDIA GeForce GTX MX150)的风扇一直转得非常快,而且侧面会产生大量热量。安装了 lm-sensors 并从命令行使用传感器,注意到内核有时会升至 85°C (185°F),ACPI 驱动程序有时会升至 95°C (203°F)... 在这些随机发生的事件中,由于风扇无法散发所有热量,因此会发生热切断,系统一次又一次崩溃...

在论坛上看到一些关于 nVidia GPU 和新驱动程序 v535.x 问题的评论后,我决定用 OpenSource 驱动程序 noveau 替换它... 然后,一切问题都消失了。不再崩溃,硬件温度也不会升高,即使我运行 VBox 虚拟机或进行视频格式转换也是如此。温度稳定在 39°C (102°F) 左右。我将按照其他一些论坛的建议去做:在升级看起来正常之前,不要安装任何与 nVidia 相关的驱动程序。

相关内容