安装 cuda-toolkit 后 nvidia-smi 停止工作

安装 cuda-toolkit 后 nvidia-smi 停止工作

结论

我正在尝试恢复nvidia-smi,在安装 cuda-toolkit 之前,它运行良好。卸载 cuda-toolkit 没有帮助。我怎样才能恢复nvidia-smi输出?

NVIDIA-SMI 失败,因为它无法与 NVIDIA 驱动程序通信。请确保已安装并运行最新的 NVIDIA 驱动程序。


更多细节

我在运行 Ubuntu 18.04 的笔记本电脑上安装了 GEFORCE RTX 2070,并已成功从官方运行文件安装了其驱动程序。以下是该安装NVIDIA-Linux-x86_64-470.63.01.run的输出:nvidia-smi

在此处输入图片描述

接下来,我从官方运行文件安装了 cuda-toolkit cuda_11.4.2_470.57.02_linux.run,确保取消选择驱动程序安装。这是安装完成后的终端窗口:

在此处输入图片描述

紧接着,当我这样做时nvidia-smi,我得到了:

NVIDIA-SMI 失败,因为它无法与 NVIDIA 驱动程序通信。请确保已安装并运行最新的 NVIDIA 驱动程序。

由于可能是 cuda-toolkit 的安装“损坏” nvidia-smi,我卸载了 cuda-toolkit(通过运行cuda-uninstaller中找到/usr/local/cuda-11.4/bin,如安装后生成的文本中所述)。

不幸的是,这没有帮助,而且nvidia-smi仍然损坏。我之所以从官方 NVIDIA 运行文件安装,是因为之前我从 Ubuntu 存储库安装驱动程序时遇到了问题,但可以使用官方驱动程序。所以我想我会尝试使用 cuda-toolkit。

我怎样才能回去nvidia-smi

一些命令的输出(如果相关)

  • which nvidia-smi/usr/bin/nvidia-smi
  • mokutil --sb-stateSecureBoot disabled
  • nvidia-settings
    • ERROR: NVIDIA driver is not loaded
    • ERROR: Unable to load info from any available system
  • ls /sys/firmware/efi/
    • config_table efivars esrt fw_platform_size fw_vendor runtime runtime-map systab vars
  • lspci -k | grep -EA2 'VGA|3D'

00:02.0 VGA 兼容控制器:英特尔公司 CometLake-H GT2 [UHD Graphics](rev 05)
子系统:微星国际有限公司 [MSI] 设备 12ae
正在使用的内核驱动程序:i915

01:00.0 VGA 兼容控制器:NVIDIA Corporation TU106M [GeForce RTX 2070 Mobile / > Max-Q Refresh] (rev a1)
子系统:Micro-Star International Co., Ltd. [MSI] 设备 12ae
内核模块:nvidiafb、nouveau

  • cat /etc/modprobe.d/blacklist-nouveau.conf

黑名单 nouveau
黑名单 vga16b
黑名单 rivafb
黑名单 nvidiafb
黑名单 rivatv
黑名单 amd76_edac
别名 nouveau off
别名 lbm-nouveau off
选项 nouveau modeset=0

  • cat /proc/version

    • Linux version 5.4.0-84-generic (buildd@lcy01-amd64-007) (gcc version 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04)) #94~18.04.1-Ubuntu SMP Thu Aug 26 23:17:46 UTC 2021
  • sudo lshw -c video :(NVIDIA 显示器“无人认领”,但这就是它应该是)

在此处输入图片描述

  • dkms status :无输出
  • lsmod | grep nvidia
    • i2c_nvidia_gpu 16384 0
  • echo $XDG_SESSION_TYPEx11
  • whereis nvidia
    • nvidia: /usr/lib/x86_64-linux-gnu/nvidia /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-470.63.01/nvidia
  • grep nvidia /etc/modprobe.d/* /lib/modprobe.d/*

/etc/modprobe.d/blacklist-framebuffer.conf:黑名单 nvidiafb
/etc/modprobe.d/blacklist-nouveau.conf:黑名单 nvidiafb
/etc/modprobe.d/nvidia-installer-disable-nouveau.conf:# 由 nvidia-installer 生成
/lib/modprobe.d/nvidia-runtimepm.conf:options nvidia “NVreg_DynamicPowerManagement=0x02”

我已经看过的帖子/问题:

答案1

我清除了所有 nvidia 的东西然后尝试,sudo ubuntu-drivers autoinstall之后sudo reboot效果nvidia-smi很好。

在此处输入图片描述

因此我猜解决方案是重新安装 NVIDIA 驱动程序。

相关内容