在常规温度且无 GPU 负载/压力的情况下使用 NVidia GPU(“性能模式”)和专有驱动程序时崩溃

在常规温度且无 GPU 负载/压力的情况下使用 NVidia GPU(“性能模式”)和专有驱动程序时崩溃

一年多来,我一直尝试自己解决这个问题(寻找类似情况下的修复方法和问题/答案),但没有成功。

受影响的设备是一台旧笔记本电脑,配有 2 个 GPU:专用/独立(NVidia)和集成(Intel Graphics)。

崩溃描述

屏幕冻结,包括鼠标指针。出现了一个新指针(仅响应鼠标移动)。无法进行任何交互(例如命令、快捷键和“点击”)。几秒钟后(大约 10 秒),键盘上的所有指示灯(例如大写锁定和数字锁定)开始打开和关闭(间隔大约 1 秒),冷却器加速到听起来像最大速度的速度。我从未让 PC 处于这种状态超过几秒钟。我必须强制关闭它(按住电源按钮)。

情况(何时/如何发生)

崩溃仅发生在全部满足以下条件:

  1. 已选择专用 GPU(sudo prime-select nvidia)。

1.1. 注意:与我之前的经历不同(注销就足够了),需要重新启动系统才能使更改生效(切换 GPU)。

  1. GPU 处于低负载(或可能根本没有负载)。

2.1. 换句话说,它绝不当 GPU 实际正在使用时(例如玩游戏或观看视频)发生。

2.2. 然而,它当使用 GPU 的应用程序最小化或未“聚焦”时发生这种情况(例如,在游戏最小化时浏览文件,或者浏览器上的选项卡正在运行视频,但不在前台/选定)。

额外细节

  1. 两者都发生过Ubuntu 18.04(包括 Live,从 USB 设备运行)和20.04
  2. 在 Windows 7 64 位(迁移到 Ubuntu 之前使用的最后一个操作系统)中没有发生这种情况
  3. 不确定使用时是否发生过这种情况新派驱动程序。然而,由于性能原因,使用它是不可行的,而且它只是一种解决方法,而不是一种解决方案。
  4. 两种 Nvidia 驱动程序版本均出现此问题软件和更新 - 附加驱动程序(或sudo ubuntu-drivers),即340和390。
  5. GPU 温度在适当的范围内
  6. RAM 上未发现任何错误(记忆测试)也不硬盘
  7. 安全启动BIOS 设置中可用的选项
  8. 检查了下载的映像和操作系统安装介质的完整性,并允许在安装前的每一次机会中运行完整性检查(仅限 20.04)
  9. 系统始终更新
  10. 一经请求模式没有经过测试,因为它只是一种权宜之计,而不是解决办法
  11. 我还没有尝试更新 BIOS,但更新日志中提到的更新似乎都与这个问题无关(如前所述,这个问题在Windows 7 64 位
  12. 未测试其他版本或发行版
  13. 检查后未找到相关条目(当然,我可能是错的)日志应用程序。但最终,它列出了涉及 GPU 从总线脱落的错误(理论上,应该通过rcutree.rcu_idle_gp_delay=1下面提到的参数修复)

尝试修复

  1. 全新安装操作系统
  2. 重新安装驱动程序,包括完全删除以前安装的驱动程序
  3. 在安装操作系统期间和之后安装 Nvidia 驱动程序
  4. 环境电力管理机最大性能,手动和自动(使用启动应用程序: /usr/bin/nvidia-settings -a "[gpu:0]/GpuPowerMizerMode=1"),因为它在重启/关机后不会保留
  5. 启用持久模式sudo nvidia-persistenced --persistence-mode
  6. 数十组合(超过 40)以下 启动参数GRUB_CMDLINE_LINUX_DEFAULT=""在的行上/etc/default/grub,然后是update-grub

intel_idle.max_cstate=1;ahci.mobile_lpm_policy=1ahci.mobile_lpm_policy=; pcie_aspm=off; rcutree.rcu_idle_gp_delay=1; nvidia-drm.modeset=1acpi_osi='Windows 2009'有和无acpi_osi=!

  1. 将笔记本电脑送至 OEM 进行检查(据 OEM 称未发现任何问题)

结束语

很抱歉问了这么长的问题。但是,在尝试“自己”修复这个问题(当然,使用其他人提供给其他人的帮助)一年多之后,搜索了大量帖子和指南,我觉得是时候向更有经验的人寻求帮助了。

任何帮助都将不胜感激,如果需要,我一定会提供更多详细信息。

非常感谢您的关注。

答案1

如果有人遇到同样的问题,我发现了一个(低效的)解决方法,除了使用 Nouveau 驱动程序或切换到集成 GPU(例如 Intel Graphics)。

只要我保持一个程序,把一些GPU 上的负载前景,崩溃就不会发生。例如,窗口化游戏可以正常运行。出于某种原因,系统要求极低的游戏无法防止崩溃。

这是一个荒谬的解决方法,在单显示器设置上尤其麻烦。然而,经过无数个小时的搜索、阅读和反复试验(仅与 GRUB 相关就超过 50 小时),我还是无法解决这个问题。

感谢所有阅读我的问题的人。

相关内容