我一直在努力解决我机器上的 GPU 的一些问题。目前 GPU 可以很好地完成一些训练工作。但当我输入 时,它会进入 ERR nvidia-smi
。然后发生的事情是我有一个无法杀死的 python 进程,即使使用sudo -kill 9 PID
.这总是伴随着一个核心,其条形在 htop 中为 100% 红色,不确定这意味着什么。
如果我尝试重新启动 GPU,它会告诉我不能,因为 GPU 正在其他进程中使用,我猜这些进程是我无法杀死的。这种情况持续发生,如果我重新启动,问题似乎已解决,但经过几次培训练习后,问题再次出现。主要问题是,大多数时候我都是通过 ssh 连接到我的机器,所以如果我重新启动,我必须要求某人重新打开我的机器,或者自己去。
我机器上的操作系统是 Manjaro。但我在 Ubuntu 22.04 上遇到了类似的问题,我得到了
CUDA error: unspecified launch failure
我不认为这与硬件有关,因为 GPU 已经使用一年了,并且一旦重新启动就能够进行训练。
我的机器的规格如下:
- CPU:英特尔 i9-13900K/KF 5.8GHz
- 主板:微星 PRO Z690-A DDR4
- 内存:64GB DDR4 3200Mhz 2x32GB
- 电源:Corsair RM1000 80+ Gold Modular
该机器还有另一个 GPU,即 RTX 2080 TI。
这个问题有解决办法吗?正如您可以想象的那样,这对于工作流程来说确实令人担忧和有问题。
最好的,卢卡
答案1
我不认为这与硬件有关,因为 GPU 已经使用一年了,并且一旦重新启动就能够进行训练。
很可能是这样。
- 检查/更换 PSU(就电压而言),重新安装 GPU,检查温度,重新连接电源线。
- 尝试安装/使用最新发布的驱动程序,目前为 550.54.14。
- 确保您也在这里问过这个问题:https://forums.developer.nvidia.com/c/gpu-graphics/linux/148