Ubuntu 20.04.3 LTS 经常随机冻结,如果不强制关机则无法恢复

Ubuntu 20.04.3 LTS 经常随机冻结,如果不强制关机则无法恢复

我在 Intel Core i7-9750H、GTX 1650(移动版?)、16GB RAM、NVME m.2 SSD 上运行 Ubuntu 20.04.3 LTS x86_64,并且没有安装任何其他操作系统。从本周三(2021 年 8 月 25 日)开始,我的电脑会随机完全冻结,这种情况经常发生。当它冻结时,我无法移动鼠标,无法切换键盘背光(通常在 BIOS 菜单中也可以使用)。与 SysRq 键的组合似乎也不起作用。如果在崩溃期间正在播放音频,那么最后 1.5 秒会开始重复。我曾经让电脑这样呆了一个多小时,但没有任何改善。这不是过热的问题,因为这种情况有时会在冷启动后立即发生。到目前为止,我唯一的解决方案是按住重置电源按钮强制关闭机器。

以下是我尝试过的:

  • 崩溃前的系统日志没有显示任何重要/关键问题,并且它们通常会有所不同
  • 从 18.04 版开始,其他人也遇到了同样的问题,并认为 Chrome 有问题。从设置中禁用硬件加速和使用命令行标志都不起作用(甚至可能让情况变得更糟)。使用 Wayland 代替 Gnome 对我来说也不起作用。
  • 当发生崩溃时,我反复尝试使用 SysRq 组合来更安全地关闭我的 PC。即Alt+SysRq+S(sync)、Alt+SysRq+U(unmount)、Alt+SysRq+B(shutdown),但这在冻结时从未起作用。我在正常运行期间进行了测试,它确实有效。

除此之外,我没有注意到性能峰值或资源占用过高。我遇到过崩溃,但只运行 Chrome,而且所有崩溃情况都是 Chrome 在运行(虽然这可能是巧合,因为我几乎一直都在运行 Chrome)。

我已经使用 Ubuntu 很长时间了,从来没有遇到过像这样大的问题。我注意到 live-patch 一定已经将我的系统从 20.04.2 更新到 20.04.3 版本,虽然我无法确认具体什么时候发生这种情况,但这肯定是不到 2 周前的事情。

我将非常感激任何有关如何调试此问题甚至更好的信息——彻底修复它。除非有其他选择,否则我真的不想重新安装。

进一步更新:

我注意到了这一点仅有的当我将笔记本电脑移至其他位置时,会发生这种情况。当我这样做时,不同之处在于:

  • 未通过 HDMI 连接到外部显示器
  • 不使用以太网
  • 使用无线网络

我仍然相信这个错误是在 20.04.2 LTS 之后引入的,尽管可能是不同的软件导致了这个错误(例如有故障的驱动程序)。

答案1

我知道这是一个相当老的问题。我四处寻找解决方案。我已经处理这个问题好几年了!我再次寻找解决方案,因为我的 PC 比平时更频繁地出现问题。我偶然发现了另一个论坛,并找到了最终的解决方案。但首先要解决的是问题:

当我使用我的电脑时,它会随机冻结并崩溃,尤其是当我当天注销时。

解决方案:起初我一直以为我的 Nvidia 驱动程序是导致我出现问题的根源。但事实并非如此。对我来说,它最终是 AMD Ryzen CPU 特有的 BIOS 配置,与空闲电源有关。具体来说,我禁用了:C6 模式、深度睡眠和全局 C 状态控制。禁用这些设置后,我的机器就再也没有死机或崩溃过。

注意:我的硬件配置是:
MB:ASRock X370 Taichi AM4
CPU:AMD Ryzen 5 1600X
RAM:64GB
GPU:NVIDIA GeForce GTX 1060 3GB

答案2

您的确切硬件对于调试此问题至关重要。您已经写道,您的 GPU 可能是移动的 - 如果这是一台笔记本电脑 - 那么该模型将会很有帮助。然后按以下顺序确保:

  • 如果计算机不响应 SysRq,请检查计算机未处于挂起状态时它是否响应 SysRq - SysRq + H 应该会在文本控制台中显示帮助。因为它可能在带有“Fn”键修饰符的笔记本电脑上或没有物理 SysRq 键时被禁用或工作方式不同。
  • 确保问题发生的情况不是由于计算机内存不足造成的 - 在由糟糕的 js 程序员编写的现代错误网站上,当您打开浏览器的多个选项卡时,它会很容易地占用大量的 RAM。
  • sudo apt-get install linux-crashdump
  • 如果您有内置卡和 Nvidia,请尝试锁定其中一个(例如通过卸载内核模块)工作几天,然后对另一张卡尝试相同的操作。

答案3

通过内核命令行禁用 IOMMU。将选项intel_iommu=off(或iommu)添加到GRUB_CMDLINE_LINUX_DEFAULT变量中/etc/default/grub,然后运行update-grub以更新 grub.cfg,然后重新启动。

更多信息和选项可通过 kernel.org 文档获得:https://www.kernel.org/doc/html/v5.4/admin-guide/kernel-parameters.html

也可以尝试不同的 nvidia 驱动程序 - 您可以使用 获取可用驱动程序列表apt list nvidia-driver-*。如果您使用图形驱动程序,则可能根本不会发生这种情况nouveau

答案4

第一种方法:

sudo ubuntu-drivers autoinstall
Restart

第二种方法:

sudo apt-get purge 'nvidia*'
sudo add-apt-repository ppa:graphics-drivers
sudo apt-get update

相关内容