GPU RTX 3090 在使用一段时间后不断进入 ERR

GPU RTX 3090 在使用一段时间后不断进入 ERR

我一直在努力解决我机器上的 GPU 的一些问题。目前 GPU 可以很好地完成一些训练工作。但当我输入 时,它会进入 ERR nvidia-smi。然后发生的事情是我有一个无法杀死的 python 进程,即使使用sudo -kill 9 PID.这总是伴随着一个核心,其条形在 htop 中为 100% 红色,不确定这意味着什么。

如果我尝试重新启动 GPU,它会告诉我不能,因为 GPU 正在其他进程中使用,我猜这些进程是我无法杀死的。这种情况持续发生,如果我重新启动,问题似乎已解决,但经过几次培训练习后,问题再次出现。主要问题是,大多数时候我都是通过 ssh 连接到我的机器,所以如果我重新启动,我必须要求某人重新打开我的机器,或者自己去。

我机器上的操作系统是 Manjaro。但我在 Ubuntu 22.04 上遇到了类似的问题,我得到了

CUDA error: unspecified launch failure

我不认为这与硬件有关,因为 GPU 已经使用一年了,并且一旦重新启动就能够进行训练。

我的机器的规格如下:

  • CPU:英特尔 i9-13900K/KF 5.8GHz
  • 主板:微星 PRO Z690-A DDR4
  • 内存:64GB DDR4 3200Mhz 2x32GB
  • 电源:Corsair RM1000 80+ Gold Modular

该机器还有另一个 GPU,即 RTX 2080 TI。

这个问题有解决办法吗?正如您可以想象的那样,这对于工作流程来说确实令人担忧和有问题。

最好的,卢卡

答案1

我不认为这与硬件有关,因为 GPU 已经使用一年了,并且一旦重新启动就能够进行训练。

很可能是这样。

相关内容