为什么我的 20.04 Ubuntu 安装会加载 18.04 的 CUDA?

为什么我的 20.04 Ubuntu 安装会加载 18.04 的 CUDA?

最近,我弄乱了我的 CUDA 安装,超出了我的修复能力。因此,我决定清除并重新安装:我遵循以下步骤:

apt clean; apt update; apt purge cuda; apt purge nvidia-*; apt autoremove; apt install cuda

我重新启动后,发现一切似乎都按预期运行:

$ nvidia-smi
Sat Nov 19 09:08:40 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 520.61.05    Driver Version: 520.61.05    CUDA Version: 11.8     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ...  On   | 00000000:02:00.0  On |                  N/A |
| 59%   44C    P8    21W / 370W |    236MiB / 12288MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      1720      G   /usr/lib/xorg/Xorg                 35MiB |
|    0   N/A  N/A      2667      G   /usr/lib/xorg/Xorg                 69MiB |
|    0   N/A  N/A      2796      G   /usr/bin/gnome-shell               92MiB |
|    0   N/A  N/A      3154      G   ...AAAAAAAA== --shared-files       23MiB |
+-----------------------------------------------------------------------------+
(base) $ nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:33:58_PDT_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0

但是,当我尝试时,sudo apt-get update我看到以下结果:

$ sudo apt-get update
[sudo] password : 
Hit:1 https://nvidia.github.io/libnvidia-container/experimental/ubuntu18.04/amd64  InRelease

但是,我正在运行 Ubuntu 20.04:

$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 20.04.5 LTS
Release:    20.04
Codename:   focal

为什么我的 Ubuntu 20.04 版本达到了与 Ubuntu 18.04 匹配的 CUDA?我应该担心这个吗?

=================== 后来的发现 ============================

我在我的中发现了这一行/etc/apt/sources.list.d/nvidia-container-toolkit.list file

deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://nvidia.github.io/libnvidia-container/experimental/ubuntu18.04/$(ARCH) /

我认为这是我的问题的根源。我应该:

  1. 手动编辑 18.04 至 20.04 并希望获得最佳效果(值得怀疑)
  2. 重复我的 nvidia 清除操作,删除 nvidia-container-toolkit.list 文件,然后按照 NVIDIA 的说明重新安装,而不是 Ubuntu 准备的 apt 包(可能是最好的,除非我搞砸了)
  3. 接受我现在的处境,因为不太可能出什么问题
  4. 做点别的事

答案1

您是否已使用 18.04 中的说明在 20.04 上安装了 cuda?您的 apt 源似乎指向 18.04 的存储库。使用下面链接的说明,您可以调查您的 apt 源(/etc/apt/sources.list.../etc/apt/sources.list.d/...

https://nvidia.github.io/libnvidia-container/(请注意,他们在这里向系统添加了另一个存储库 - 只需尝试删除软件包,然后删除存储库,然后找到有关如何为您的系统版本正确安装 CUDA 的官方指南)

如果您想可靠地使用您的 GPU,我个人建议您使用 apt 安装 cuda(对我来说,安装 cuda 后 steam 不想启动)并使用带有 cuda 的 docker 容器:https://hub.docker.com/r/nvidia/cuda


回复评论:我会清除所有 nvidia 的 cuda几乎像以前一样(只需小心清除nvidia-*,因为您可能会卸载驱动程序?之后,您可能必须切换安装它们并从 noveau 返回 nvidia),然后只需从中删除文件即可/etc/apt/sources.list.d/。也许还可以从密钥环中删除 gpg 密钥,但我对此了解不够,无法指导您(因为格式从 18(通用密钥环)更改为 20 - 单独的密钥环等等)。

该怎么办:你可以选择选项2。但我强烈建议使用 docker,因为基本安装的工作量远远大于您学习和设置 docker 所花费的时间。此外,docker 镜像可以用一个简单的命令删除,而 cuda 包...如您所见...需要做很多工作 :D

我在安装 cuda 软件包时遇到了什么问题:

  • steam 不工作(和其他依赖于库的程序,与 cudas 系统混淆)
  • 驱动程序更新时 cuda 中断
  • 全局混乱
  • 整个系统的配置文件

还有一个提示 -apt-get是一种古老的做事方式,现在我们使用apt类似的sudo apt update

答案2

https://nvidia.github.io不是 Ubuntu 源,并且您自己添加了指向 18.04 的 github 源。

当你打开该链接时它会显示:

不支持的发行版!# 检查https://nvidia.github.io/libnvidia-container

该链接包含有关 20.04 和 20.94 安装的说明。

相关内容