最近我的 GPU 出了点问题。我刚刚彻底清理了我的计算机,并在其上安装了 Ubuntu 16.04 和 CUDA 8.0,希望这样可以解决问题。但是,我仍然会收到错误。尝试运行 deviceQuery 之类的东西只会返回错误。似乎我的一个 GPU 出现故障;我猜是在硬件级别。以下是 nvidia-smi 的输出:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.57 Driver Version: 367.57 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX TIT... Off | 0000:05:00.0 Off | N/A |
| 32% 46C P8 28W / 189W | 1MiB / 6079MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 GeForce GTX TIT... Off | 0000:06:00.0 Off | N/A |
|ERR! 58C P0 ERR! / 189W | 0MiB / 6082MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 2 GeForce GTX TIT... Off | 0000:09:00.0 On | N/A |
| 31% 50C P0 73W / 189W | 322MiB / 6079MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 3 GeForce GTX TIT... Off | 0000:0A:00.0 Off | N/A |
| 28% 38C P8 32W / 189W | 0MiB / 6082MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 2 4712 G /usr/lib/xorg/Xorg 255MiB |
| 2 5314 G compiz 66MiB |
+-----------------------------------------------------------------------------+
我想禁用 GPU 1,这样我就可以使用其他 GPU 来运行程序。这些 GPU 是 Titan Z,因此尝试拔掉一个 GPU 会使我的计算能力减半,而不是 1/4。因此,如果这是唯一的选择,我会这样做,但我更喜欢其他方法。背景知识是,我正在做神经网络研究,因此我需要大量使用 GPU。