电源或 GPU 故障?限制 GPU 功率可使机器不会崩溃

电源或 GPU 故障?限制 GPU 功率可使机器不会崩溃

我有一台配备 nvidia 1080 gpu 的 Linux 机器。运行深度学习训练作业时,机器总是崩溃。

我了解了驾驶员的功率限制标志

  nvidia-smi --power-limit=120
  nvidia-smi -pm 1           // make persistant

尝试了这个,不再崩溃!

我的问题:这是否意味着电源坏了?或者 GPU 坏了? 或者?

原谅,我不记得电源的规格,但它很大,并且保证它足以为 gpu 甚至两个 gpu 供电。我相信选择电源不是这个问题。

笔记:

  1. 对机器的内存检查没有发现问题。
  2. 我在这里发布这个问题是因为这篇文章推荐了这个社区https://meta.stackexchange.com/questions/299370/stack-exchange-site-for-pc-hardware-questions
  3. 对硬件非常陌生,请温柔一点。

相关内容