Ubuntu 16.04 和 18.04 窗口随机崩溃,开始记录错误

Ubuntu 16.04 和 18.04 窗口随机崩溃,开始记录错误

几个月前,我在 Thinkpad T570 上使用 Ubuntu 16.04 已有一年左右了,当时我的笔记本电脑窗口第一次崩溃了。我重新启动了它,大约一周后它恢复正常,然后又出现了这种情况。在接下来的几周里,它又出现了六次这种情况。在那之后的两周里,它完全稳定,没有一次死机。上周,它又开始崩溃了。

症状如下:

  • 侧边栏消失
  • 顶部栏的组件消失
  • 顶部栏本身消失
  • 失去切换窗口的能力
  • 应用程序窗口停止响应或渲染
  • 可能会完全关闭窗口并进入黑屏。

我运行了联想的内置硬件诊断程序,一切正常。所以我决定尝试升级到 Ubuntu 18.04,看看是否能解决问题。我做到了不是进行全新安装,但进行升级。

自升级以来的一周内,18.04 已崩溃两次。行为与 16.04 崩溃非常相似,尽管错误消息和崩溃速度似乎略有不同。

上次崩溃产生的错误消息不断重复,直到我硬关机:

  • EXT4-fs error (device nvme0n1p2) ext3_find_entry:1436: inode#[NUMBER]: comm gmain: reading directory lblock 0
  • systemd-journald[268]: Failed to write entry ([NUMBER] items [NUMBER] bytes), ignoring: Read-only file system

除此之外,我没有其他具体的数据点来帮助确定发生了什么。但以下是一些可能有用的想法:

  • 据我所知,我所做的任何事情都不会触发此响应。我大部分时间都在使用 Chrome、Pycharm 和命令行。当发生这种情况时,我可以在任何一个应用程序(或其他应用程序)中执行任何操作。
  • 我的系统很老旧。我很少对系统设置进行修改,第一次崩溃发生时,我已经很久没有动过任何事了。
  • 崩溃后重启并不总是能成功。有时它会卡在联想徽标上,有时是空白屏幕,有时 Ubuntu 徽标会出现一段时间,然后出现紫色空白屏幕。
  • 似乎在关机和重启之间等待的时间越长,重启成功的可能性就越大。

如果您能提供任何关于可能发生的事情的想法,我们将不胜感激!谢谢!

更新 1

回应@heynnema 的建议:

SMART Data & Tests按钮呈灰色,无法单击(在任何设备/分区上)。我执行了:sudo apt install smartmontools,之后SMART Data & Tests按钮保持灰色。为了获取一些相关信息,我运行了sudo smartctl -a /dev/nvme0n1p2。它没有产生任何包括“扇区”在内的信息,但输出如下:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-29-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       SAMSUNG MZVLW256HEHP-000L7
Serial Number:                      S35ENX0J599958
Firmware Version:                   4L7QCXB7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 256,060,514,304 [256 GB]
Unallocated NVM Capacity:           0
Controller ID:                      2
Number of Namespaces:               1
Namespace 1 Size/Capacity:          256,060,514,304 [256 GB]
Namespace 1 Utilization:            168,824,696,832 [168 GB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Thu Feb 28 18:47:38 2019 UTC
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL *Other*
Optional NVM Commands (0x001f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Warning  Comp. Temp. Threshold:     69 Celsius
Critical Comp. Temp. Threshold:     72 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     7.60W       -        -    0  0  0  0        0       0
 1 +     6.00W       -        -    1  1  1  1        0       0
 2 +     5.10W       -        -    2  2  2  2        0       0
 3 -   0.0400W       -        -    3  3  3  3      210    1500
 4 -   0.0050W       -        -    4  4  4  4     2200    6000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02, NSID 0x1)
Critical Warning:                   0x00
Temperature:                        28 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    1%
Data Units Read:                    3,685,965 [1.88 TB]
Data Units Written:                 8,000,875 [4.09 TB]
Host Read Commands:                 54,265,691
Host Write Commands:                86,676,003
Controller Busy Time:               399
Power Cycles:                       1,823
Power On Hours:                     646
Unsafe Shutdowns:                   93
Media and Data Integrity Errors:    0
Error Information Log Entries:      267
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               28 Celsius
Temperature Sensor 2:               29 Celsius

Error Information (NVMe Log 0x01, max 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0        267     0  0x0008  0x4004      -            0     0     -
  1        266     0  0x0016  0x4016  0x004            0     1     -
  2        265     0  0x0008  0x4004      -            0     0     -
  3        264     0  0x0016  0x4016  0x004            0     1     -
  4        263     0  0x0008  0x4004      -            0     0     -
  5        262     0  0x0008  0x4004      -            0     0     -
  6        261     0  0x0008  0x4004      -            0     0     -
  7        260     0  0x0026  0x4016  0x004            0     1     -
  8        259     0  0x0008  0x4004      -            0     0     -
  9        258     0  0x0008  0x4004      -            0     0     -
 10        257     0  0x0008  0x4004      -            0     0     -
 11        256     0  0x0016  0x4016  0x004            0     1     -
 12        255     0  0x0008  0x4004      -            0     0     -
 13        254     0  0x0008  0x4004      -            0     0     -
 14        253     0  0x0008  0x4004      -            0     0     -
 15        252     0  0x0008  0x4004      -            0     0     -
... (48 entries not shown)

我也查看了smartctl手册页,但不清楚哪些标志可以提供有关扇区的更多信息。

更新 2 (2019/03/05)

尽管过去几天我遇到了几次崩溃,但ls -al /var/crash在这段时间内没有显示任何崩溃:

jessime@jessime-t570:~$ ls -al /var/crash
total 59072
drwxrwsrwt  2 root     whoopsie     4096 Mar  5 11:05 .
drwxr-xr-x 15 root     root         4096 Jan 31  2018 ..
-rw-r-----  1 jessime  whoopsie 37795148 Mar  1 10:39 _usr_bin_gedit.1000.crash
-rw-rw-r--  1 jessime  whoopsie        0 Mar  1 10:39 _usr_bin_gedit.1000.upload
-rw-------  1 whoopsie whoopsie        0 Mar  1 10:40 _usr_bin_gedit.1000.uploaded
-rw-r-----  1 jessime  whoopsie 22683033 Feb 27 19:04 _usr_bin_pulseaudio.1000.crash

答案1

让我们首先检查你的 Ubuntu 文件系统...

  • 启动至 Ubuntu Live DVD/USB
  • 打开terminal窗户
  • 类型sudo fdisk -l
  • 识别“Linux 文件系统”的 /dev/XXXX 设备名称
  • 输入sudo fsck -f /dev/XXXX# 用你之前找到的数字替换 XXXX
  • 如果有错误,请重复 fsck 命令
  • 类型reboot

更新#1:

然后让我们检查一下 SMART 数据...

  • 打开Disks应用程序
  • SMART Data & Tests从汉堡图标中选择
  • 查看数据,查找名称中带有“sector”的参数
  • 截取屏幕截图并将其编辑到您的问题中
  • 运行 SMART 测试

更新 #2:

我认为您的 SSD 固件存在问题。本次更新,但请仔细检查我是否为您的机器提供了正确的更新程序。联想和三星都有更新工具,所以要做一些功课。先备份,然后进行更新。您需要在 Windows 中运行更新程序。

相关内容