我有一块 GTX 1080Ti,大约 3.5 年来我一直将其用作个人深度学习卡。最近,我收到很多模糊的 CUDA 错误。之前运行良好的训练和推理代码现在在运行几分钟后(或我的电脑关闭)出现错误。
它通常是以下版本:
CUDA: unspecified launch failure
我开始怀疑这是我的 GPU 的硬件问题。我想知道是否有办法确认这一点?(注意:除了这些错误之外,GPU 似乎很好 - 我的显示器上没有视觉伪影或类似的东西。)
例如我曾尝试过:
- https://github.com/ComputationalRadiationPhysics/cuda_memtest(测试未发现我的 GPU 有任何故障)
还有其他方法吗?
答案1
之前运行良好的训练和推理代码现在在运行几分钟后出现错误
听起来好像卡出故障了。
(或者我的电脑关机了)
听起来电源可能出现故障
我将首先更换更便宜的选项——电源。
电源故障可能会导致 GPU 故障。