我该如何排除故障/修复此问题?
使用 nvidia GPU,系统能够显示主板固件徽标和 Grub 屏幕。选择 Ubuntu 版本(18.04 或 20.01)后,无法显示 Ubuntu 登录屏幕。相反,我看到一个黑屏出现,抱怨了nvidia-modeset : ERROR: GPU:0 Idling display engine time out
三次(见附图),然后是一个纯黑屏,GPU 不断加速到全速风扇,变得非常热。我不得不按下电源按钮关闭系统。
此 GPU 在发生此事件之前运行良好。当 GPU 被移除并且 Intel CPU 的集成显卡插入显示器时,Ubuntu 系统能够正常启动。IGPU 已禁用。
已安装的 nvidia 软件包:
$ dpkg -l | grep nvidia
ii libnvidia-cfg1-470:amd64 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA binary OpenGL/GLX configuration library
ii libnvidia-common-470 470.57.02-0ubuntu0.18.04.1 all Shared files used by the NVIDIA libraries
ii libnvidia-compute-470:amd64 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA libcompute package
ii libnvidia-compute-470:i386 470.57.02-0ubuntu0.18.04.1 i386 NVIDIA libcompute package
ii libnvidia-decode-470:amd64 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA Video Decoding runtime libraries
ii libnvidia-decode-470:i386 470.57.02-0ubuntu0.18.04.1 i386 NVIDIA Video Decoding runtime libraries
ii libnvidia-encode-470:amd64 470.57.02-0ubuntu0.18.04.1 amd64 NVENC Video Encoding runtime library
ii libnvidia-encode-470:i386 470.57.02-0ubuntu0.18.04.1 i386 NVENC Video Encoding runtime library
ii libnvidia-extra-470:amd64 470.57.02-0ubuntu0.18.04.1 amd64 Extra libraries for the NVIDIA driver
ii libnvidia-fbc1-470:amd64 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA OpenGL-based Framebuffer Capture runtime library
ii libnvidia-fbc1-470:i386 470.57.02-0ubuntu0.18.04.1 i386 NVIDIA OpenGL-based Framebuffer Capture runtime library
ii libnvidia-gl-470:amd64 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA OpenGL/GLX/EGL/GLES GLVND libraries and Vulkan ICD
ii libnvidia-gl-470:i386 470.57.02-0ubuntu0.18.04.1 i386 NVIDIA OpenGL/GLX/EGL/GLES GLVND libraries and Vulkan ICD
ii libnvidia-ifr1-470:amd64 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA OpenGL-based Inband Frame Readback runtime library
ii libnvidia-ifr1-470:i386 470.57.02-0ubuntu0.18.04.1 i386 NVIDIA OpenGL-based Inband Frame Readback runtime library
ii nvidia-compute-utils-470 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA compute utilities
ii nvidia-dkms-470 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA DKMS package
ii nvidia-driver-470 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA driver metapackage
ii nvidia-kernel-common-470 470.57.02-0ubuntu0.18.04.1 amd64 Shared files used with the kernel module
ii nvidia-kernel-source-470 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA kernel source package
ii nvidia-prime 0.8.16~0.18.04.1 all Tools to enable NVIDIA's Prime
ii nvidia-settings 470.57.01-0ubuntu0.18.04.1 amd64 Tool for configuring the NVIDIA graphics driver
ii nvidia-utils-470 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA driver support binaries
ii xserver-xorg-video-nvidia-470 470.57.02-0ubuntu0.18.04.1 amd64 NVIDIA binary Xorg driver
答案1
我在 Windows 系统上测试了此 GPU,该系统能够显示启动屏幕、登录屏幕和桌面。但是,显示伪影仍然存在。另外,我怀疑 Windows 能够降低分辨率。
我遇到了这个Youtube 视频显示相同的显示瑕疵,并使用 NVidea MOD 和 MATS 发现问题源于 GPU VRAM 之一。更换 VRAM 解决了显示问题。
由于这款 GPU 保养得很好,我怀疑 GPU 显示故障是否是由于互连故障造成的。我遇到了另一个Youtube 视频结果表明,用热风枪重新加热 GPU 板 6 到 8 分钟,修复 GPU 卡的成功率为 10%。他建议将此处理作为最后的手段。我用热风枪加热卡的 GPU 侧约 4 分钟。此后,我翻转卡并再加热 2 分钟左右。在 GPU 卡冷却后,我对其进行了测试,发现其功能已恢复。重新加热程序修复了 GPU 卡。之前,GPU 卡已清洁,但没有进行加热处理;仅凭该程序无法修复 GPU。