最近,我弄乱了我的 CUDA 安装,超出了我的修复能力。因此,我决定清除并重新安装:我遵循以下步骤:
apt clean; apt update; apt purge cuda; apt purge nvidia-*; apt autoremove; apt install cuda
我重新启动后,发现一切似乎都按预期运行:
$ nvidia-smi
Sat Nov 19 09:08:40 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 520.61.05 Driver Version: 520.61.05 CUDA Version: 11.8 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... On | 00000000:02:00.0 On | N/A |
| 59% 44C P8 21W / 370W | 236MiB / 12288MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 1720 G /usr/lib/xorg/Xorg 35MiB |
| 0 N/A N/A 2667 G /usr/lib/xorg/Xorg 69MiB |
| 0 N/A N/A 2796 G /usr/bin/gnome-shell 92MiB |
| 0 N/A N/A 3154 G ...AAAAAAAA== --shared-files 23MiB |
+-----------------------------------------------------------------------------+
(base) $ nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:33:58_PDT_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0
但是,当我尝试时,sudo apt-get update
我看到以下结果:
$ sudo apt-get update
[sudo] password :
Hit:1 https://nvidia.github.io/libnvidia-container/experimental/ubuntu18.04/amd64 InRelease
但是,我正在运行 Ubuntu 20.04:
$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 20.04.5 LTS
Release: 20.04
Codename: focal
为什么我的 Ubuntu 20.04 版本达到了与 Ubuntu 18.04 匹配的 CUDA?我应该担心这个吗?
=================== 后来的发现 ============================
我在我的中发现了这一行/etc/apt/sources.list.d/nvidia-container-toolkit.list file
:
deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://nvidia.github.io/libnvidia-container/experimental/ubuntu18.04/$(ARCH) /
我认为这是我的问题的根源。我应该:
- 手动编辑 18.04 至 20.04 并希望获得最佳效果(值得怀疑)
- 重复我的 nvidia 清除操作,删除 nvidia-container-toolkit.list 文件,然后按照 NVIDIA 的说明重新安装,而不是 Ubuntu 准备的 apt 包(可能是最好的,除非我搞砸了)
- 接受我现在的处境,因为不太可能出什么问题
- 做点别的事
答案1
您是否已使用 18.04 中的说明在 20.04 上安装了 cuda?您的 apt 源似乎指向 18.04 的存储库。使用下面链接的说明,您可以调查您的 apt 源(/etc/apt/sources.list...
和/etc/apt/sources.list.d/...
)
https://nvidia.github.io/libnvidia-container/(请注意,他们在这里向系统添加了另一个存储库 - 只需尝试删除软件包,然后删除存储库,然后找到有关如何为您的系统版本正确安装 CUDA 的官方指南)
如果您想可靠地使用您的 GPU,我个人建议您使用 apt 安装 cuda(对我来说,安装 cuda 后 steam 不想启动)并使用带有 cuda 的 docker 容器:https://hub.docker.com/r/nvidia/cuda
回复评论:我会清除所有 nvidia 的 cuda几乎像以前一样(只需小心清除nvidia-*
,因为您可能会卸载驱动程序?之后,您可能必须切换安装它们并从 noveau 返回 nvidia),然后只需从中删除文件即可/etc/apt/sources.list.d/
。也许还可以从密钥环中删除 gpg 密钥,但我对此了解不够,无法指导您(因为格式从 18(通用密钥环)更改为 20 - 单独的密钥环等等)。
该怎么办:你可以选择选项2。但我强烈建议使用 docker,因为基本安装的工作量远远大于您学习和设置 docker 所花费的时间。此外,docker 镜像可以用一个简单的命令删除,而 cuda 包...如您所见...需要做很多工作 :D
我在安装 cuda 软件包时遇到了什么问题:
- steam 不工作(和其他依赖于库的程序,与 cudas 系统混淆)
- 驱动程序更新时 cuda 中断
- 全局混乱
- 整个系统的配置文件
还有一个提示 -apt-get
是一种古老的做事方式,现在我们使用apt
类似的sudo apt update
。
答案2
https://nvidia.github.io不是 Ubuntu 源,并且您自己添加了指向 18.04 的 github 源。
当你打开该链接时它会显示:
不支持的发行版!# 检查https://nvidia.github.io/libnvidia-container
该链接包含有关 20.04 和 20.94 安装的说明。