(K)配备 NVidia GeForce RTX 3060 TI 的 Ubuntu 在启动过程中冻结

(K)配备 NVidia GeForce RTX 3060 TI 的 Ubuntu 在启动过程中冻结

在花了四天时间尝试了我遇到的几乎每一个想法和建议之后,我现在承认我对我所面临的问题完全感到震惊。如果有人能指出我正确的方向,我将不胜感激。我的问题如下:

我目前正在设置一台具有以下规格的新计算机:

  • 主板:微星 Mag B560 战斧 WIFI
  • 显卡:GeForce RTX 3060 Ti 通过 KFA2
  • 中央处理器:英特尔 i7-11700KF
  • 三个屏幕,其中两个通过 DisplayPort 连接,一个通过 HDMI 连接。
  • 安全启动已禁用。
  • 快速启动已禁用。

我安装了最新版本Ubuntu Linux(Jammy Jellyfish 22.04,截至撰写本文时)并最初设法使系统或多或少直接开箱即用。然而,在安装了一些必要的更新和大量程序​​后,问题开始了:

简而言之,事实证明现在几乎不可能让系统运行起来。启动,一如既往冻结在切换到图形登录屏幕之前。从一开始我就怀疑 NVidia 驱动程序至少是问题的一部分,并开始通过quiet splash从 GRUB 条目中删除并添加来启动,noplymouth nomodeset以更好地了解发生的情况。然后我注意到,当 USB 端口查询并设法找到我的一台平板电脑的问题时,启动过程大部分都冻结了。通过将其从 USB 2 端口移至 USB 3 端口,问题就消失了,即启动过程不再停在那里,而是粗略地运行,直到出现图形登录屏幕。

然后我读到了有关在某些版本的 NVidia 驱动程序中将屏幕连接到 DisplayPort 的错误(例如这里这里)。但是,这些线程中提到的版本似乎与我的卡不再相关。更重要的是,我还尝试过仅使用插入 HDMI 端口的显示器来启动,但没有任何运气。

然后我开始尝试不同版本的驱动程序,但结果各不相同:

  • 450-服务器(来自存储库,在上面的线程之一中提到):导致大量错误“无法启动 nvidia 持久守护进程”。
  • 460.84(来自 NVidia 网站):编译失败
  • 470.57(来自 NVidia 网站):编译失败
  • 470.63(来自 NVidia 站点):切换到图形登录屏幕之前冻结
  • 470.63(来自 NVidia 站点):切换到图形登录屏幕之前冻结
  • 470.94(来自 NVidia 站点):切换到图形登录屏幕之前冻结
  • 470.103(来自存储库):在切换到图形登录屏幕之前冻结
  • 510.60(来自存储库和 NVidia 站点):在切换到图形登录屏幕之前冻结。

在大多数情况下,我至少设法通过启动到运行级别 3(添加3GRUB)来到达控制台,然后我可以在其中卸载驱动程序。然而,在某些情况下,我不得不明确地将 NVidia 驱动程序列入黑名单(module_blacklist=nvidia在 GRUB 中添加):一般来说,版本 510.xx 的驱动程序似乎更频繁地导致这种情况,但我无法完全指出问题所在。

然后我尝试启动较旧的内核并从 5.15.0-27 切换到 5.15.0-25(没有其他内核可用)。起初,这似乎有所改善,因为我设法使用 470.63 及更高版本的驱动程序启动系统。唉,我的喜悦并没有持续多久,问题又回来了。我现在似乎能够每隔 50 次启动一次工作系统。然而,在这些情况下,仅检测到我的一个屏幕。

这让我怀疑这可能与时间有关。我遇到了一个线这建议“在启动过程中提前加载 Nvidia 内核模块”通过修改/etc/modules.但这似乎对我的情况没有任何影响。

事实上,每当我能够启动时,只检测到我的三个屏幕之一,这让我怀疑驱动程序甚至没有加载。确实:我现在注意到了“(EE) 无法加载模块 nvidia(模块不存在,0)”/var/logs/Xorg.0.log,所以我搜索了驱动程序,发现它已安装到/usr/lib/x86_64-linux-gnu/nvidia/xorg.那时我经常安装、清除和重新安装不同版本的驱动程序,所以我想知道为什么这些步骤都没有设置正确的 ModulePath。尽管如此,我手动添加了该行ModulePath "/usr/lib/x86_64-linux-gnu/nvidia/xorg,/usr/lib/xorg/modules"/etc/X11/xorg.conf设法至少让驱动程序在启动期间加载。不幸的是,我现在收到错误“(EE) NVIDIA:无法初始化 NVIDIA 内核模块”。检查dmesg不包含任何有用的提示。

最后,我绝望地尝试了一个简单的方法sudo ubuntu-drivers autoinstall(安装驱动程序版本 510.60)。系统首先启动到最新内核(-27,见上文),但没有成功,但切换回以前的内核版本(-25)后,系统立即启动,一切正常。然而,仅重新启动一次后,问题又出现了,现在甚至自动安装也没有任何效果。

顺便一提:

  • 我确定nouveau司机已被列入黑名单。
  • xorg.conf我尝试经常使用重新创建文件sudo nvidia-xconfig,最后甚至删除了整个目录/etc/X11。这些都没有任何效果。

我现在已经没有想法了,我很高兴收到所有提示和建议来让我的系统启动和运行。提前致谢。

相关内容