我最近开始玩一些新游戏,经常遇到间歇性崩溃,打印错误,例如DXGI_ERROR_DEVICE_HUNG
、DXGI_ERROR_DEVICE_REMOVED
或类似错误。研究将问题归结为以下可能性:
- 显卡故障,
- 电源功率不足。
我的问题是:我该如何区分这两者?是否有一些诊断程序记录 NVIDIA 卡的“因电力不足而导致的故障”事件,或类似情况?
该卡基于 NVIDIA GTX 6xx 系列芯片组,所讨论的系统是 Windows 7 64 位(与 Linux 双启动,以防执行故障排除所需的情况)。
笔记:
我故意省略了配置的其余部分,因为我希望答案尽可能通用 - 以造福社区。如果你认为你有一个足够通用的解决方案,并且绝对需求更多信息,请发表评论。
降频并不是一个可行的解决方案(因为它没有区分这两种情况),并且根据卡和 PSU 的规格,提供的瓦数应该足够(尽管开销很小)。
为了完整起见,下面是崩溃后显卡参数的图表。每个标签都描述了其下方的图表,最上面的图表是摄氏温度。GPU 使用率的激增和核心时钟频率的下降对应于崩溃:
答案1
如果您使用无名 PSU,这可能是问题的根源。即使有时知名品牌的 PSU 也会出现这种情况,无名 PSU 通常会将所有电源线(-5、-12、3.3、5、5VSB、12V)计入其总功率,而显卡(如果有外部电源连接器)和 CPU(带有 P4 连接器)实际上只使用 +12V。此外,3.3 和/或 5V 通常会提供高安培电流,而 +12V 则较低。(已经看到过一个 PSU 在 +3.3V 上有 40A 的无用电流,而在 +12V 上只有 18A)无名 PSU 的组件也可能尺寸过小,导致它们无法正确提供超过 80% 的总功率。
了解计算机的所有硬件规格将有助于判断 PSU 是否足够。
不过,您可以尝试以下方法:将 CPU 倍频器设置为较低的值,降低电压,这样它会消耗较少的电流,但这不会直接影响显卡。显然,您会在游戏中获得较低的性能。
您可以尝试对芯片组进行相同的操作,但要确保 PCIe 链路频率固定为 100Mhz。
最后,一些显卡拥有板载 LED,可指示显卡无法正确供电。(例如,我的 Sapphire Radeon HD4850 有一个,但这里我们讨论的是 NVidia)
答案2
因此,由于未指明的“硬件故障”,该卡在保修范围内被更换。
总而言之,如果:
- 您遇到了类似问题的问题(间歇性卡断电,没有温度峰值),
- 您已确认您的 PSU 没有为显卡提供动力不足。
然后简单地安排检查当卡插入完全不同的硬件配置时是否出现故障。当然,提供验证的机器应该具有相同或更高的规格(尤其是电源和主板)。
最后,我照做了——请一位朋友检查了他们电脑上的卡。大约 7 分钟后,出现了完全相同的故障。
当然,有一个非常显卡可能存在故障,从而损坏主板,这种可能性很小 - 然而,这种情况不太可能发生,而且在另一个配置上只检查显卡比反过来更安全,因为这里只有一个可能存在故障的组件。