多GPU超级计算机

多GPU超级计算机

我有一台运行 ubuntu 服务器 14.04 的 supermicro 服务器,我想安装 Quadro 400(用于显示)、Nvidia GTX 295 和 Nvidia K80,但是,当我安装 K80 的驱动程序时,Quadro 400 和 Nvidia GTX 295 不安装出现在 nvidia-smi 中

当我尝试从nvidia网站安装GTX 295(似乎与Quadro 400相同)的驱动程序时,它说需要卸载以前安装的驱动程序(即使该驱动程序是针对K80的)而不是 GTX 295)

以前有人遇到过这个问题吗?并知道如何安装和检测多个 GPU。

我还创建了一个(根据我之前的搜索)我在 /etc/modprobe.d/ 中创建了一个名为 blacklist-nouveau.conf 的文件,其中包含以下内容

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

在运行 nvidia-smi 时(并在尝试安装所有驱动程序后),我收到以下消息

Failed to initialize NVML: Unknown Error

谢谢

答案1

这就是解决方案

  1. 我重新安装了Ubuntu服务器14.04
  2. 我遵循官方文档中的第 1-2 点和第 3 点
cuda-getting-started-guide-for-linux
  1. 我运行了 nvidia-smi,它只显示了 K80
  2. 我拔掉了K80的插头
  3. 我手动安装了 gtx295 和 Quadro 400 的驱动程序
 sudo apt-get install nvidia-340
  1. 我重新插上 K80
  2. 重新启动系统并运行 Nvidia-smi(显示所有显卡,但似乎无法通过 CUDA 代码或 Nsight 访问任何内容)

  3. 所以我重新运行(希望GTX和Quadro的驱动程序不会被删除)

sudo apt-get install cuda-drivers
  1. 重新启动服务器

(此时 Nvidia-smi)只向我展示了 K80 .... 再次!

  1. 我终于安装了
 sudo apt-get install nvidia-cuda-toolkit
  1. 我重新启动了服务器
  2. 是的,它成功了,它们都被检测到并且所有 GPU 都可用。

所有卡现在都出现在 Nvidia-smi 中,尽管我似乎也获得了图形界面,这很奇怪,因为我没有安装它,但公平。我现在看看是否有效。

相关内容