在 Ubuntu 18.04 上安装 NVidia 410 和 CUDA 10

在 Ubuntu 18.04 上安装 NVidia 410 和 CUDA 10

我在问自己如何为带有 Tesla V100 的 Ubuntu 服务器 18.04(内核 4.15.0-29)安装最新的专有 NVidia 驱动程序(410.72)和最新的 CUDA(10)。

$ lspci | grep NVIDIA
3b:00.0 3D controller: NVIDIA Corporation GV100 [Tesla V100 PCIe] (rev a1)

显然,免费驱动程序 (nouveau) 现在已经安装。据我所知,我需要安装专有驱动程序。

$ lspci -nnk | grep -i "VGA\|'Kern'\|3D\|Display" -A2
03:00.0 VGA compatible controller [0300]: Matrox Electronics Systems Ltd. Integrated Matrox G200eW3 Graphics Controller [102b:0536] (rev 04)
    Subsystem: Dell Integrated Matrox G200eW3 Graphics Controller [1028:0715]
    Kernel driver in use: mgag200
--
3b:00.0 3D controller [0302]: NVIDIA Corporation GV100 [Tesla V100 PCIe] [10de:1db4] (rev a1)
    Subsystem: NVIDIA Corporation GV100 [Tesla V100 PCIe] [10de:1214]
    Kernel modules: nvidiafb, nouveau

$ sudo lshw -numeric -C display
  *-display
       description: VGA compatible controller
       product: Matrox Electronics Systems Ltd. [102B:536]
       vendor: Matrox Electronics Systems Ltd. [102B]
       physical id: 0
       bus info: pci@0000:03:00.0
       version: 04
       width: 32 bits
       clock: 66MHz
       capabilities: pm vga_controller bus_master cap_list rom
       configuration: driver=mgag200 latency=64 maxlatency=32 mingnt=16
       resources: irq:16 memory:91000000-91ffffff memory:92808000-9280bfff memory:92000000-927fffff memory:c0000-dffff
  *-display UNCLAIMED
       description: 3D controller
       product: NVIDIA Corporation [10DE:1DB4]
       vendor: NVIDIA Corporation [10DE]
       physical id: 0
       bus info: pci@0000:3b:00.0
       version: a1
       width: 64 bits
       clock: 33MHz
       capabilities: pm msi pciexpress bus_master cap_list
       configuration: latency=0
       resources: iomemory:38280-3827f iomemory:382c0-382bf memory:ab000000-abffffff memory:382800000000-382bffffffff memory:382c00000000-382c01ffffff

$ dpkg -l nvidia*
Desired=Unknown/Install/Remove/Purge/Hold
| Status=Not/Inst/Conf-files/Unpacked/halF-conf/Half-inst/trig-aWait/Trig-pend
|/ Err?=(none)/Reinst-required (Status,Err: uppercase=bad)
||/ Name                          Version             Architecture        Description
+++-=============================-===================-===================-================================================================
un  nvidia-common                 <none>              <none>              (no description available)
un  nvidia-prime                  <none>              <none>              (no description available)

我已阅读了几份指南,其中大多数都使用了过时的版本,因此,我不再那么确定该遵循哪一种方法。

我想使用(显然是官方的)PPA 图形驱动程序,但尝试添加 repo 失败:

$ sudo add-apt-repository ppa:graphics-drivers/ppa
Cannot add PPA: 'ppa:~graphics-drivers/ubuntu/ppa'.
ERROR: '~graphics-drivers' user or team does not exist.

虽然存储库确实存在:https://launchpad.net/~graphics-drivers/+archive/ubuntu/ppa/+packages

NVidia 的官方存储库(https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/) 已经列出了适用于 Ubuntu 18.04 的 410 驱动程序,但无法通过 apt-get 添加安装(?)。

我不想手动从 NVidia 网站安装 CUDA 和显卡驱动程序,因为将来我需要手动更新/修复所有内容。因此:有没有办法让 PPA 正常工作?或者我需要手动安装驱动程序?或者还有其他方法吗?

答案1

嗯,显然错误是什么仍不清楚,因为服务器崩溃了,需要重新设置,因为它无法正确重新启动。

无论如何,我通过添加 URL 并/etc/apt/sources.list通过 手动添加密钥来手动添加存储库apt-key add file.pub,我之前已将整个公钥手动复制到其中file.pub

这有效并允许我从所述存储库进行安装,即使“正常”方式仍然不起作用。

相关内容