RTX 2080 停止工作

RTX 2080 停止工作

我成功在配备 RTX 2080 Max Q 的 Alienware M17 上安装了 Ubuntu 18.04 LTS,运行良好,直到突然停止。我按照 Terrance 的说明安装了 418.56 驱动程序,CUDA 版本 10.1这里。一开始,一切都运行良好。我得到了预期的性能Tensorflow,大约是桌面版 RTX 2080 的一半(Max Q 的运行时间只有桌面版的一半)。然后我让 Tensorflow 基准测试运行了一整晚。早上,性能比以前下降了 30%。从那时起,我的性能就下降了。例如,在 Heaven Benchmark 中只有 9.3 fps(它至少应该在 100 fps 左右)。我能想到的唯一原因是我在基准测试运行时拔掉了电源线一分钟。

到目前为止我发现 GPU 时钟现在太低了:nvidia-smi 显示 GPU 时钟频率在 75 到 247 MHz 之间,即使在负载下(而不是 300..2100)。我可以使用 nvidia-smi 手动设置 GPU 时钟,但只能设置我设置的值的 1/4。例如,nvidia-smi --lock-gpu-clocks=300,300 会导致 GPU 时钟报告为 75 MHz。如果我设置更高的值,它的最大频率约为 350 MHz。nvidia-smi 的所有其他信息看起来都很正常。性能状态为 P0。所有“时钟节流原因”均为“未激活”。

对我来说,最令人费解的是,为什么它一开始运行良好,然后突然变慢了(可能是在我拔掉电源线的时候)。我尝试更改设置、驱动程序以及我能想到的所有其他方法。问题尽管已完全重新安装 18.04,问题仍然存在从头开始,按照第一次使用的相同说明操作。从那以后,尽管重新启动、重新安装等,速度还是变慢了。我怀疑是硬件故障,但当我启动 Windows 10 时一切都正常。

任何帮助将非常感激。

相关内容