在我使用ubuntu 20.04
桌面工作时,我注意到偶尔会出现死机,电脑“大部分”会停止运行 10 秒到 1 分钟左右。这种情况大概每小时发生一次。我仍然可以点击大多数已打开的程序上的菜单,或切换工作区 ( i3
wm),但启动任何新程序(包括终端)都会挂起,Windows 中的许多操作也是如此。结合以下情况,似乎几乎(完全?)所有磁盘 IO 都挂起了。
因此,我一直使用我所知道的监控工具保持工作区打开。我没有看到htop
、或中任何突出的东西NetHogs
(特别是在日志中,我没有注意到在我观察到问题之前立即发生的任何错误或输出)。在复制之后(可能是在复制期间),我确实看到了来自进程的消息,例如与写入磁盘的超时一致的消息。dmesg
journalctl
dockerd
iotop -o
(-o
=实际完成 io 的进程)输出似乎提供了很好的证据:
- 在正常运行期间,许多进程会稳定轮换,从 Firefox 到 dmcrypt 和 btrfs 进程。
- 在复制时,列表几乎是空的;出现 2 或 3 个进程
[kworker/.*events-power-efficient]
并且类似。
一些其他系统信息:
- 硬件已经 6 个月了。几个月前我确实重新安装了 ubuntu 20.04,有些确信安装后我没有立即看到这个问题。
- 磁盘:
/
是 nvme 上的 btrfs-on-luks。还有一个btrfs
数据阵列,两者都在启动时安装。所有驱动器上都有足够的空间,btrfs scrub
没有显示任何错误 - 在过去(至少一两周?)的时间里,我一直注意到这一点,但没有注意到任何其他系统问题。
swapon -v
返回/swap/swapfile file 16G 0B -2
(系统有大量内存,并且 ATM 处于轻负载状态,因此没有交换使用并不奇怪)- 似乎没有遵循一致的模式或时间,复制间隔从几分钟两次到大约 1~2 小时一次不等 -然而我并不一定会注意到所有发生的事情;如果我花几分钟阅读一个文本网页,我想我可能不会注意到。
我已经运行btrfs scrub
并重新启动了好几次,但看不出系统锁定的任何模式。我有备份,没有看到任何损坏,系统似乎在“恢复”后“恢复”了,没有任何问题 - 但这非常令人不安。
我如何才能收集足够的信息来帮助解决这个问题?