“显卡错误（nvidia-smi 在风扇和使用情况上打印“ERR！”）”并且进程没有被终止，并且 gpu 也没有被重置

Question 1

我遇到了 GPU 问题，其中一个和你的一样。Google 似乎没有足够的资源来处理 GPU Fan ERR！我花了很多时间才找到以下解决方案。大多数情况下它们都能解决问题，但取决于 GPU 状态，包括 CUDA 驱动程序、硬件风扇和 PCle 电源线（可能）。

1. 重启系统

最简单的方法是重新启动系统以恢复正常状态。例如，我按如下方式重新启动 Ubuntu 18.04。

$ sudo reboot

2.GPU空闲状态下的解决方案

如果您的 GPU 显存尚未被任何深度学习应用程序占用，例如：没有 2100 MiB / 7981 MiB 这样的使用量，则可以使用以下复合命令来解决 GPU 风扇错误。

$ sudo rmmod nvidia_uvm
$ sudo modprobe nvidia_uvm
$ sudo reboot

命令将会起作用并且 GPU 大多数情况下将恢复到正常状态。

3.GPU僵尸进程状态的解决方案

如果您的深度学习应用程序完成（或结束）后，GPU 仍然被僵尸进程（或其他原因）占用，则上述命令将无法正常工作。在这种情况下，您可以通过输入以下命令来解决问题。

重新启动系统

$ sudo reboot

继续执行下面的复合命令。

$ sudo rmmod nvidia_uvm

rmmod: ERROR: Module nvidia_uvm is in use

（不要理会上面的ERROR，继续执行下面的命令）

$ sudo modprobe nvidia_uvm

$ sudo reboot

我对上述命令的测试场景描述如下。

A. 在给出“sudo reboot”等单一重启命令后，GPU 实际上不起作用。但有必要清除系统。

B.按照A的方法，给出上述复合命令，由GPU进行运算。

4. 为 Nvidia GPU 设置持久性

1). 检查nvidia-persistenced状态

$ sudo systemctl status nvidia-persistenced

2). 启用 nvidia-persistenced

$ sudo systemctl enable nvidia-persistenced

3). 重启

$ sudo reboot

干杯。

Answer