在 Mate 22.04 中,尽管 Nvidia 驱动程序 (GeForce RTX 3050) 正在运行,DaVinci (18.6.2) 仍返回“您的 GPU 内存已满”

在 Mate 22.04 中,尽管 Nvidia 驱动程序 (GeForce RTX 3050) 正在运行,DaVinci (18.6.2) 仍返回“您的 GPU 内存已满”

在 Ubuntu Mate 22.04 上,尽管没有其他进程在运行,最近的更新导致 DaVinci Resolve 出现“您的 GPU 内存已满”错误。

到目前为止,已经尝试清除并重新安装 Nvidia 驱动程序、降级到以前版本的 DaVinci 和以前的 Nvidia 驱动程序、手动更新保留的 5 个软件包(gjs libgjs0g libnetplan0 libsgutils2-2 netplan.io),并且通常尝试让我的工作站重新启动并运行。

计算机运行平稳,输入时返回正常信息nvidia-smi,所以我认为 GPU 运行正常,只是 DaVinci 中出现了一些沟通错误。

有没有什么办法可以将驱动程序、CUDA 或其他东西降级到以前的版本,直到这个问题(希望)得到解决?

UEFI 中的安全启动已禁用,据我所知,没有损坏或丢失的软件包或依赖项。但我在启动时收到了来自 Ubuntu 的一般错误消息。

$ nvidia-smi
Thu Oct 12 10:50:14 2023       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.113.01             Driver Version: 535.113.01   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3050 ...    Off | 00000000:01:00.0 Off |                  N/A |
| N/A   40C    P0              N/A /  35W |      9MiB /  4096MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      1519      G   /usr/lib/xorg/Xorg                            4MiB |
+---------------------------------------------------------------------------------------+

答案1

再次感谢@guiverc 的所有帮助!

最终导致内核堆栈不匹配(最近的更新切换到 HWE 内核堆栈,而以前的版本使用了 GA 内核堆栈)。

通过使用@guiverc 提供的链接交换回 GA 内核(uname -r以检查 grub 中启动的正确内核):

https://wiki.ubuntu.com/Kernel/LTSEnablementStack

清除旧驱动程序并在使用 GA 内核(nvidia-driver-535我撰写本文时是最新的内核)时重新安装它们,以及使用此链接中的答案安装 5.15 / GA 内核的相应标头(并重新启动):

https://forums.developer.nvidia.com/t/nvidia-smi-has-failed-because-it-couldnt-communicate-with-the-nvidia-driver-make-sure-that-the-latest-nvidia-driver-is-installed-and-running/197141

达芬奇又开始工作了!视频回放,一切顺利!

PS:作为 Ubuntu 新手,我非常担心再次无意中破坏某些东西。因此,我没有清除不起作用的内核版本,而是将其设置为grub-customizer从先前启动的条目启动:

将“较旧”的内核设置为默认 grub 条目

虽然这不是最干净的解决方案,但我很高兴我的工作站能够重新用来编辑视频。

我也正在研究设置像 TimeShift 这样的系统备份,希望将来可以避免这个问题,因为 Nvidia/DaVinci 至少每个季度都会在 Ubuntu 中引起故障。

相关内容