我购买了一台全新的笔记本电脑并尝试在其上安装 Ubuntu 20.04(通过可启动 USB),但是我经常遇到导致系统无法使用的问题,即:
- 一切冻结(包括鼠标光标,ctrl+alt+f1 组合不起作用),大约 10 秒后重新启动
- 笔记本电脑突然重启
- 各种东西不断崩溃(gnome-terminal-server、gnome-session 等)。这些问题随机发生,前两个甚至在操作系统安装期间也是如此。有时在系统启动后立即,有时在几分钟后。
我花了几天时间尝试从不同角度解决这个问题,但没有成功,并且非常感谢一些关于哪些途径值得进一步探索以及如何探索的建议。如果这可能是硬件问题,那么有办法以某种方式证明它就太好了。
事实:
- 有些事件似乎与系统日志中的“硬件错误”条目相关(尽管我发现了一些非常相似的条目,但似乎没有触发该问题)。
Oct 9 14:38:36 test-Lenovo-Legion-5-15IMH05H kernel: [ 629.400829] mce: [Hardware Error]: Machine check events logged
Oct 9 14:38:36 test-Lenovo-Legion-5-15IMH05H rasdaemon[726]: rasdaemon: register inserted at db
Oct 9 14:38:36 test-Lenovo-Legion-5-15IMH05H rasdaemon[726]: <...>-2740 [004] 0.000063: mce_record: 2020-10-09 14:38:37 +0200 bank=2, status= c000014000010019, Generic TLB Level-1 Error, mci=Error_overflow Corrected_error, mca=Generic TLB Level-1 Error, cpu_type= Intel generic architectural MCA, cpu= 4, socketid= 0, mcgstatus=0, mcgcap= c0c, apicid= 8
- 为了确定这是否是硬件问题,我在笔记本电脑上安装了 Windows 10 家庭版。安装成功,操作系统花了几个小时下载和安装更新,总体看起来不错。为了确保它在压力下工作,我使用了几个小时的Windows,其中玩了大约半个小时的《巫师3》,没有任何问题。
我尝试诊断/解决问题的一些尝试:
免责声明:我对 Linux 的理解是有限的,在我的尝试中,我遵循了一些教程/指南,但我也可能犯了一些愚蠢的错误,导致我的结论错误
- 我尝试通过下载 deb 文件、运行 dpkg -i linux*.deb 并在启动菜单中选择其他内核来安装其他内核(5.8.14 和 5.9-rc8);安装成功但没有帮助
- 我尝试安装 Manjaro Gnome(内核 5.6)但没有成功(安装过程中冻结了,然后就无法启动,所以我放弃了)
- 当我尝试在没有专有 GPU 驱动程序的情况下安装 Ubuntu,然后手动安装 Nvidia“长命”驱动程序(v450)或“短命”驱动程序(v455)时,我做了一些实验;在这两种情况下安装都已完成,但似乎没有帮助
- 我尝试了 Ubuntu 20.10,它有完全相同的问题
- 我尝试了 Linux 内核和 NVidia 驱动程序的各种组合,包括 arch-linux 上的最新组合
- 一些资源提出了与电源相关的问题。我唯一想到的就是尝试使用没有连接直流适配器的笔记本电脑,但我仍然经历了冻结/重启。
日志
inxi -F && dmesg | grep -i error
这是在安装过程中启用“安装专有驱动程序”的最小 20.04 上的输出。
System: Host: test-Lenovo-Legion-5-15IMH05H Kernel: 5.4.0-48-generic x86_64 bits: 64 Desktop: Gnome 3.36.4
Distro: Ubuntu 20.04.1 LTS (Focal Fossa)
Machine: Type: Laptop System: LENOVO product: 81Y6 v: Lenovo Legion 5 15IMH05H serial: <superuser/root required>
Mobo: LENOVO model: LNVNB161216 v: NO DPK serial: <superuser/root required> UEFI: LENOVO v: EFCN32WW
date: 05/11/2020
Battery: ID-1: BAT0 charge: 61.4 Wh condition: 63.3/60.0 Wh (105%)
CPU: Topology: 6-Core model: Intel Core i7-10750H bits: 64 type: MT MCP L2 cache: 12.0 MiB
Speed: 800 MHz min/max: 800/5000 MHz Core speeds (MHz): 1: 800 2: 800 3: 800 4: 800 5: 800 6: 800 7: 800 8: 800
9: 800 10: 800 11: 800 12: 800
Graphics: Device-1: Intel UHD Graphics driver: i915 v: kernel
Device-2: NVIDIA TU106 [GeForce RTX 2060] driver: nvidia v: 450.66
Display: x11 server: X.Org 1.20.8 driver: modesetting,nvidia unloaded: fbdev,nouveau,vesa
resolution: 1920x1080~144Hz
OpenGL: renderer: GeForce RTX 2060/PCIe/SSE2 v: 4.6.0 NVIDIA 450.66
Audio: Device-1: Intel Comet Lake PCH cAVS driver: snd_hda_intel
Device-2: NVIDIA TU106 High Definition Audio driver: snd_hda_intel
Sound Server: ALSA v: k5.4.0-48-generic
Network: Device-1: Intel Wi-Fi 6 AX201 driver: iwlwifi
IF: wlp0s20f3 state: up mac: <REDACTED>
Device-2: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet driver: r8169
IF: enp8s0 state: down mac: <REDACTED>
Drives: Local Storage: total: 476.94 GiB used: 8.08 GiB (1.7%)
ID-1: /dev/nvme0n1 vendor: Western Digital model: PC SN730 SDBQNTY-512G-1001 size: 476.94 GiB
ID-2: /dev/nvme1n1 vendor: SK Hynix model: HFM512GDHTNI-87A0B size: 476.94 GiB
Partition: ID-1: / size: 468.00 GiB used: 8.01 GiB (1.7%) fs: ext4 dev: /dev/nvme0n1p2
Sensors: System Temperatures: cpu: 41.0 C mobo: N/A gpu: nvidia temp: 39 C
Fan Speeds (RPM): N/A
Info: Processes: 322 Uptime: 2m Memory: 31.23 GiB used: 1.32 GiB (4.2%) Shell: bash inxi: 3.0.38
[ 0.012647] [Firmware Bug]: TSC ADJUST differs within socket(s), fixing all errors
[ 0.362528] ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.I2C2.TPD0], AE_NOT_FOUND (20190816/dswload2-162)
[ 0.362528] ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20190816/psobject-220)
[ 0.362528] ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.I2C3.TPL1], AE_NOT_FOUND (20190816/dswload2-162)
[ 0.362528] ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20190816/psobject-220)
[ 0.925916] RAS: Correctable Errors collector initialized.
[ 6.754956] usb 1-6: device descriptor read/64, error -71
[ 8.093725] EXT4-fs (nvme0n1p2): re-mounted. Opts: errors=remount-ro
[ 8.399155] iwlwifi 0000:00:14.3: Direct firmware load for iwlwifi-QuZ-a0-hr-b0-50.ucode failed with error -2
[ 8.399445] iwlwifi 0000:00:14.3: Direct firmware load for iwlwifi-QuZ-a0-hr-b0-49.ucode failed with error -2
[ 9.295155] nvidia-gpu 0000:01:00.3: i2c timeout error e0000000
[ 9.295162] ucsi_ccg: probe of 0-0008 failed with error -110
先感谢您
答案1
TL;DR 我得出的结论是,这可能是硬件问题,并决定退回笔记本电脑。
完整故事:
- 经过一番调查后,我的印象是该问题与 Nvidia GPU 有关,因为当我使用 Intel 时,这一问题在一两天内都不会发生。
- 一位朋友建议我更新BIOS;完成此操作并更新 NVidia 驱动程序后,几天内一切正常,只有一次奇怪的重新启动和一些 Gnome 崩溃
- 在某个时候,我允许系统安装系统更新,并且在 NVidia 和 Intel GPU 上,该问题再次开始更频繁地发生;关于该更新的记录 Nvidia 驱动程序已从 450.66.XX 升至 450.80.02,但我不确定它是否与该问题有关
- 我注意到 MCE 错误大多数时候与重新启动相关,经常发生并且总是在 CPU 4 上;我认为这很可能是导致笔记本电脑无法使用的原因,并开始了退货流程。
答案2
我的 Legion Pro 5 16ARX8 82WM (R9000P) 在混合图形模式下运行 Linux(amdgpu + nvidia 550 驱动程序)时遇到冻结问题。
看起来我找到了一个解决方法为了。
这英伟达GPU可以处于不同的状态 -D3冷,D0,D3热。
我随机注意到,如果我保留英伟达GPU在D0状态(只需打开nvidia 设置面板上的电源管理器选项卡)- 冻结/口吃消失了。
但如果我让英伟达GPU进入睡眠模式(D3冷state) - 每 2 分钟冻结一次应用程序。
和系统日志发送垃圾邮件的人:
...
Feb 17 15:55:17 smarttop kernel: [ 9145.605086] nvidia 0000:01:00.0: Enabling HDA controller
Feb 17 15:57:17 smarttop kernel: [ 9265.612997] nvidia 0000:01:00.0: Enabling HDA controller
Feb 17 15:58:58 smarttop kernel: [ 9366.357103] nvidia 0000:01:00.0: Enabling HDA controller
Feb 18 00:30:06 smarttop kernel: [37914.905083] nvidia 0000:01:00.0: Enabling HDA controller
...
所以看起来冻结与 nvidia HDA 控制器有关。
另外,为了以防万一,我rmmod tpm
在 GRUB 菜单项中添加了。