我有一台配备 nvidia 1080 gpu 的 Linux 机器。运行深度学习训练作业时,机器总是崩溃。
我了解了驾驶员的功率限制标志
nvidia-smi --power-limit=120
nvidia-smi -pm 1 // make persistant
尝试了这个,不再崩溃!
我的问题:这是否意味着电源坏了?或者 GPU 坏了? 或者?
原谅,我不记得电源的规格,但它很大,并且保证它足以为 gpu 甚至两个 gpu 供电。我相信选择电源不是这个问题。
笔记:
- 对机器的内存检查没有发现问题。
- 我在这里发布这个问题是因为这篇文章推荐了这个社区https://meta.stackexchange.com/questions/299370/stack-exchange-site-for-pc-hardware-questions
- 对硬件非常陌生,请温柔一点。