我是这里论坛的新手,但我对最近安装的系统更新后遇到的一些异常问题有疑问。升级到内核 5.15.15(或可能是最新的 Mesa 驱动程序 - 21.3.6)后,我遇到了一个问题,当处于负载状态时,我的 GPU 达到其紧急结温 (115C),导致系统在没有警告的情况下关闭。
Feb 11 23:02:23 pop-os kernel: amdgpu 0000:07:00.0: amdgpu: ERROR: GPU over temperature range(SW CTF) detected!
Feb 11 23:02:23 pop-os kernel: amdgpu 0000:07:00.0: amdgpu: ERROR: System is going to shutdown due to GPU SW CTF!
可以找到完整的 systemd/journald 日志这里第 256 行左右出现 amdgpu 错误,此后所有日志都表示关闭过程。
现在,通常情况下,我认为系统应该在 GPU 达到这个温度之前对其进行节流,但我可能是错的。无论如何,这个问题似乎是新问题,因为在使用旧内核(5.13)和 Mesa 驱动程序(不幸的是,我不知道以前的版本号)的相同情况下运行系统从未导致系统关闭,也不会导致系统关闭。 GPU 在 Windows 下运行时会出现问题。但自从最近一轮系统更新以来,我在24小时内已经遇到了3次这个问题。
对于上下文,我的系统如下:
- 操作系统:Pop!_OS 21.10 x86_64
- 内核版本:5.15.15-76051515-generic#202201160435~1642693824~21.10~97db1bb
- GPU 1:AMD Radeon RX 6800 XT
- GPU 2:Nvidia GeForce RTX 3060 Ti(在Linux上未使用,并且没有安装驱动程序)
- CPU:AMD锐龙7 5800X
有谁知道这是否是一个已知问题,或者可能是可以解决的问题?任何帮助将不胜感激!
先感谢您!