神秘的系统冻结长达数分钟

2024-6-4 • tag-icon

我目前遇到笔记本电脑长时间 (每次约 5 分钟) 冻结的情况。我拍摄了一张当时情况的图片来指出一些症状（由于冻结，无法截取屏幕截图）。

以下是图片：

那么，什么会冻结：

VM 冻结（右侧），正在关闭
网站无法加载（背景）
无法 ping 网站（终端窗口），过了一会儿，也无法在终端窗口中输入文本（注意“打开矩形”文本光标）
文件浏览器冻结并且不显示文件夹内容（Dolphin 窗口）
无法打开 Dash 主页

不会冻结的内容：

仍然可以移动鼠标
仍然可以将焦点放在窗口上
仍然可以使用alt- ctrl-进入终端f1

附加信息：

似乎有两个阶段，例如，一个阶段我仍然可以打开新程序，另一个阶段甚至无法打开新程序。我怀疑第二个阶段是在我尝试查看主文件夹 ( ~) 的内容时开始的，但我可能完全不明白。
大约 5 分钟后，系统解冻，好像什么都没发生过一样。
这种情况每天都会发生几次。重启并不能解决问题。
至少有一次（我会尝试更多，因为这种情况一直在发生），切换到不同的 wifi 网络可以立即解决问题。切换回原始网络不会导致问题再次出现（立即）。

我不知道从哪里开始找，但读了一下，发现dmesg输出可能是一个好地方。其内容可以找到这里。相关内容/var/log/syslog可参见这里。两份报告都提到了 [3125.851869] 处发生固件崩溃，具体时间是 1 月 9 日 19:24:03。

我在新款 Dell XPS 13 Kaby Lake 上运行 16.10。如果我可以提供更多信息，请告诉我。

编辑

日志dmesg现在提到硬件错误：

[   38.276956] Key type id_legacy registered
[  300.462458] mce: [Hardware Error]: Machine check events logged
[  311.013944] SUPR0GipMap: fGetGipCpu=0x3
[  311.521449] vboxdrv: ffffffffc0000020 VMMR0.r0
[  311.706008] vboxdrv: ffffffffc0102020 VBoxDDR0.r0
[  311.799288] vboxdrv: ffffffffc0122020 VBoxEhciR0.r0
[  327.508305] wlp58s0: AP 88:03:55:f4:9c:e8 changed bandwidth, new config is 2462 MHz, width 1 (2462/0 MHz)
[  404.851340] vboxdrv: ffffffffc0000020 VMMR0.r0
[  404.984658] vboxdrv: ffffffffc0102020 VBoxDDR0.r0
[  746.410756] hrtimer: interrupt took 9058 ns

的内容/var/log/mcelog位于这个Pastebin。

编辑

有迹象表明该问题可能与硬盘有关，因此让我提供一些相关信息。

系统在加密的 SSD 上运行（不仅仅是主文件夹），这可能是它没有显示在下/dev/sda，而是下的原因/dev/mapper/ubuntu--vg-root。如果它有帮助，整个输出df -l是：

Filesystem                  1K-blocks      Used Available Use% Mounted on
udev                          4003752         0   4003752   0% /dev
tmpfs                          805328     10204    795124   2% /run
/dev/mapper/ubuntu--vg-root 235927440 214041380   9831944  96% /
tmpfs                         4026636       292   4026344   1% /dev/shm
tmpfs                            5120         4      5116   1% /run/lock
tmpfs                         4026636         0   4026636   0% /sys/fs/cgroup
/dev/loop2                      77952     77952         0 100% /snap/ubuntu-core/1357
/dev/loop0                      76800     76800         0 100% /snap/ubuntu-core/423
/dev/loop1                     131968    131968         0 100% /snap/arduino-mhall119/3
/dev/nvme0n1p2                 483946    136447    322514  30% /boot
/dev/nvme0n1p1                 523248      3676    519572   1% /boot/efi
tmpfs                          805324       140    805184   1% /run/user/1000

尝试查找一些健康信息，运行gsmartcontrol，基本健康检查为“未知”，并查看输出，最后几行显示Read NVMe SMART/Health Information failed: NVMe Status 0x4002

运行时我得到相同的输出sudo smartctl -a /dev/nvme0n1：

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.8.0-34-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       THNSN5256GPUK NVMe TOSHIBA 256GB
Serial Number:                      X64S14LCT18T
Firmware Version:                   5KDA4101
PCI Vendor/Subsystem ID:            0x1179
IEEE OUI Identifier:                0x00080d
Controller ID:                      0
Number of Namespaces:               1
Namespace 1 Size/Capacity:          256,060,514,304 [256 GB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Fri Jan 13 19:05:21 2017 CET
Firmware Updates (0x02):            1 Slot
Optional Admin Commands (0x0017):   Security Format Frmw_DL *Other*
Optional NVM Commands (0x001e):     Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Warning  Comp. Temp. Threshold:     78 Celsius
Critical Comp. Temp. Threshold:     82 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     6.00W       -        -    0  0  0  0        0       0
 1 +     2.40W       -        -    1  1  1  1        0       0
 2 +     1.90W       -        -    2  2  2  2        0       0
 3 -   0.0120W       -        -    3  3  3  3     5000   25000
 4 -   0.0060W       -        -    4  4  4  4   100000   70000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         2
 1 -    4096       0         1

=== START OF SMART DATA SECTION ===
Read NVMe SMART/Health Information failed: NVMe Status 0x4002

我没有找到有关此状态的任何信息。