nvidia-smi、nvtop、nvcc 的问题 [Ubuntu 22.04](混合 GPU)

nvidia-smi、nvtop、nvcc 的问题 [Ubuntu 22.04](混合 GPU)

我知道关于如何安装驱动程序的帖子有成千上万,我尝试了几个,但没有任何帮助。

让我描述一下我遇到的问题。我的 GPU 是 NVIDIA GeForce RTX 3050 Mobile CUDA

  1. 我使用 pic 清除了我当前(当时)的驱动程序sudo apt-get purge nvidia-*(我从“附加驱动程序”中获取了图像)(当时没有变灰)--> 司机

  2. 之后运行了几个命令sudo apt-get updatesudo apt-get autoremove

  3. 我有 20 多个选项吗apt search nvidia-driver ?470、535、390、525 等等

  4. 使用 安装驱动程序版本 470。sudo apt install nvidia-driver-470我应该提到 nvidia 网站说驱动程序版本 535 pic(当时没有变灰)-->对于我的 GPU

  5. 做过sudo reboot

  6. 再次登录 ubuntu 并检查附加驱动程序(驱动程序安装正常,因为已勾选)(当时没有变灰)470

此时出现了多个问题!注意我还没有安装 CUDA!

  1. nvidia-smiNVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
  2. 我安装了sudo apt install nvtop,但nvtop返回No GPU to monitor.

现在变得奇怪了

  1. 已安装 CUDA sudo apt install nvidia-cuda-toolkit nvidia-cuda-toolkit-gccnvcc --version11.5

但是,步骤 9 不知何故“删除”了 nvidia 实用程序。当我nvidia-smi再次运行时,它返回:

Command 'nvidia-smi' not found, but can be installed with:
sudo apt install nvidia-utils-390         # version 390.157-0ubuntu0.22.04.2, or
sudo apt install nvidia-utils-418-server  # version 418.226.00-0ubuntu5~0.22.04.1
sudo apt install nvidia-utils-450-server  # version 450.248.02-0ubuntu0.22.04.1
sudo apt install nvidia-utils-470         # version 470.199.02-0ubuntu0.22.04.1
sudo apt install nvidia-utils-470-server  # version 470.199.02-0ubuntu0.22.04.1
sudo apt install nvidia-utils-525         # version 525.125.06-0ubuntu0.22.04.1
sudo apt install nvidia-utils-525-server  # version 525.125.06-0ubuntu0.22.04.1
sudo apt install nvidia-utils-510-server  # version 510.47.03-0ubuntu3
sudo apt install nvidia-utils-510         # version 510.108.03-0ubuntu0.22.04.1
sudo apt install nvidia-utils-515         # version 515.105.01-0ubuntu0.22.04.1
sudo apt install nvidia-utils-515-server  # version 515.105.01-0ubuntu0.22.04.1
sudo apt install nvidia-utils-530         # version 530.41.03-0ubuntu0.22.04.2
sudo apt install nvidia-utils-535         # version 535.54.03-0ubuntu0.22.04.1

我尝试安装sudo apt install nvidia-utils-470。它安装成功了,但如果我运行nvcc --version“nvcc 命令未找到”之类的命令,它就会删除我的 CUDA。这是我陷入的死循环。

  1. 现在,当我尝试检查“附加驱动程序”时,所有内容都显示为灰色,除了这个 -->额外的司机

我找到了这篇文章,但我不确定它是否有效+对我来说有点不清楚(Ubuntu 22.04 无法安装 nvidia-utils-515 和 nvidia-cuda-toolkit

编辑:

ed1) 我没有cuda文件夹/usr/local/但是nvcc可以工作

ed2) 我昨天尝试安装驱动程序版本 535。最后重新安装了 ubuntu。

ed3)内核版本 5.19.0-46-generic

我找到了这篇文章,但我不确定它是否有效+对我来说有点不清楚(Ubuntu 22.04 无法安装 nvidia-utils-515 和 nvidia-cuda-toolkit

ed4) 尝试了上面的链接,没有帮助!

ed5) 我尝试使用 5.15.0-76-generic 安装 ubuntu 20.04。我按照相同的步骤操作,但没有任何效果。现在我怀疑这可能是因为我的笔记本电脑上有 2 个 GPU(华硕 ROG strix g15 G15RC)。

  • 首先。AMD ATI 06:00.0 设备 1681
  • 第二。NVIDIA 01:00.0 NVIDIA Corporation Device 25a2(有趣的是,在 Ubuntu 20.04 系统中看不到我拥有的 NVIDIA GPU 型号)

答案1

问题解决了!

注意,我安装的是Ubuntu 20.04,因为Ubuntu 22.04有内核问题!

我的笔记本电脑有 2 个 GPU(混合 GPU)

我注意到 NVIDIA X 服务器设置没有显示我的任何 GPU。因此,我开始解决这个问题,结果发现我的混合 GPU

  1. sudo apt install nvidia-driver-470
  2. sudo reboot
  3. sudo apt install nvidia-cuda-toolkit
  4. 然后我在 BIOS 设置中禁用“安全启动”

完毕!

相关内容