如何检查 GPU 的健康状况

如何检查 GPU 的健康状况

我有一块 GTX 1080Ti,大约 3.5 年来我一直将其用作个人深度学习卡。最近,我收到很多模糊的 CUDA 错误。之前运行良好的训练和推理代码现在在运行几分钟后(或我的电脑关闭)出现错误。

它通常是以下版本:

CUDA: unspecified launch failure

我开始怀疑这是我的 GPU 的硬件问题。我想知道是否有办法确认这一点?(注意:除了这些错误之外,GPU 似乎很好 - 我的显示器上没有视觉伪影或类似的东西。)

例如我曾尝试过:

还有其他方法吗?

答案1

之前运行良好的训练和推理代码现在在运行几分钟后出现错误

听起来好像卡出故障了。


(或者我的电脑关机了)

听起来电源可能出现故障


我将首先更换更便宜的选项——电源。

电源故障可能会导致 GPU 故障。

相关内容