在 Ubuntu 16.04 上使用 NVIDIA CUDA 8.0 禁用一个 GPU

在 Ubuntu 16.04 上使用 NVIDIA CUDA 8.0 禁用一个 GPU

最近我的 GPU 出了点问题。我刚刚彻底清理了我的计算机,并在其上安装了 Ubuntu 16.04 和 CUDA 8.0,希望这样可以解决问题。但是,我仍然会收到错误。尝试运行 deviceQuery 之类的东西只会返回错误。似乎我的一个 GPU 出现故障;我猜是在硬件级别。以下是 nvidia-smi 的输出:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.57                 Driver Version: 367.57                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX TIT...  Off  | 0000:05:00.0     Off |                  N/A |
| 32%   46C    P8    28W / 189W |      1MiB /  6079MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX TIT...  Off  | 0000:06:00.0     Off |                  N/A |
|ERR!   58C    P0   ERR! / 189W |      0MiB /  6082MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  GeForce GTX TIT...  Off  | 0000:09:00.0      On |                  N/A |
| 31%   50C    P0    73W / 189W |    322MiB /  6079MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  GeForce GTX TIT...  Off  | 0000:0A:00.0     Off |                  N/A |
| 28%   38C    P8    32W / 189W |      0MiB /  6082MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    2      4712    G   /usr/lib/xorg/Xorg                             255MiB |
|    2      5314    G   compiz                                          66MiB |
+-----------------------------------------------------------------------------+

我想禁用 GPU 1,这样我就可以使用其他 GPU 来运行程序。这些 GPU 是 Titan Z,因此尝试拔掉一个 GPU 会使我的计算能力减半,而不是 1/4。因此,如果这是唯一的选择,我会这样做,但我更喜欢其他方法。背景知识是,我正在做神经网络研究,因此我需要大量使用 GPU。

相关内容