在 Ubuntu Mate 22.04 上,尽管没有其他进程在运行,最近的更新导致 DaVinci Resolve 出现“您的 GPU 内存已满”错误。
到目前为止,已经尝试清除并重新安装 Nvidia 驱动程序、降级到以前版本的 DaVinci 和以前的 Nvidia 驱动程序、手动更新保留的 5 个软件包(gjs libgjs0g libnetplan0 libsgutils2-2 netplan.io),并且通常尝试让我的工作站重新启动并运行。
计算机运行平稳,输入时返回正常信息nvidia-smi
,所以我认为 GPU 运行正常,只是 DaVinci 中出现了一些沟通错误。
有没有什么办法可以将驱动程序、CUDA 或其他东西降级到以前的版本,直到这个问题(希望)得到解决?
UEFI 中的安全启动已禁用,据我所知,没有损坏或丢失的软件包或依赖项。但我在启动时收到了来自 Ubuntu 的一般错误消息。
$ nvidia-smi
Thu Oct 12 10:50:14 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.113.01 Driver Version: 535.113.01 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 3050 ... Off | 00000000:01:00.0 Off | N/A |
| N/A 40C P0 N/A / 35W | 9MiB / 4096MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 1519 G /usr/lib/xorg/Xorg 4MiB |
+---------------------------------------------------------------------------------------+
答案1
再次感谢@guiverc 的所有帮助!
最终导致内核堆栈不匹配(最近的更新切换到 HWE 内核堆栈,而以前的版本使用了 GA 内核堆栈)。
通过使用@guiverc 提供的链接交换回 GA 内核(uname -r
以检查 grub 中启动的正确内核):
https://wiki.ubuntu.com/Kernel/LTSEnablementStack
清除旧驱动程序并在使用 GA 内核(nvidia-driver-535
我撰写本文时是最新的内核)时重新安装它们,以及使用此链接中的答案安装 5.15 / GA 内核的相应标头(并重新启动):
达芬奇又开始工作了!视频回放,一切顺利!
PS:作为 Ubuntu 新手,我非常担心再次无意中破坏某些东西。因此,我没有清除不起作用的内核版本,而是将其设置为grub-customizer
从先前启动的条目启动:
虽然这不是最干净的解决方案,但我很高兴我的工作站能够重新用来编辑视频。
我也正在研究设置像 TimeShift 这样的系统备份,希望将来可以避免这个问题,因为 Nvidia/DaVinci 至少每个季度都会在 Ubuntu 中引起故障。