Linux 系统 IO 随机挂起/冻结约 30 秒

Linux 系统 IO 随机挂起/冻结约 30 秒

在我使用ubuntu 20.04桌面工作时,我注意到偶尔会出现死机,电脑“大部分”会停止运行 10 秒到 1 分钟左右。这种情况大概每小时发生一次。我仍然可以点击大多数已打开的程序上的菜单,或切换工作区 ( i3wm),但启动任何新程序(包括终端)都会挂起,Windows 中的许多操作也是如此。结合以下情况,似乎几乎(完全?)所有磁盘 IO 都挂起了。

因此,我一直使用我所知道的监控工具保持工作区打开。我没有看到htop、或中任何突出的东西NetHogs(特别是在日志中,我没有注意到在我观察到问题之前立即发生的任何错误或输出)。在复制之后(可能是在复制期间),我确实看到了来自进程的消息,例如与写入磁盘的超时一致的消息。dmesgjournalctldockerd

iotop -o-o=实际完成 io 的进程)输出似乎提供了很好的证据:

  • 在正常运行期间,许多进程会稳定轮换,从 Firefox 到 dmcrypt 和 btrfs 进程。
  • 在复制时,列表几乎是空的;出现 2 或 3 个进程[kworker/.*events-power-efficient]并且类似。

一些其他系统信息:

  • 硬件已经 6 个月了。几个月前我确实重新安装了 ubuntu 20.04,有些确信安装后我没有立即看到这个问题。
  • 磁盘:/是 nvme 上的 btrfs-on-luks。还有一个btrfs数据阵列,两者都在启动时安装。所有驱动器上都有足够的空间,btrfs scrub没有显示任何错误
  • 在过去(至少一两周?)的时间里,我一直注意到这一点,但没有注意到任何其他系统问题。
  • swapon -v返回/swap/swapfile file 16G 0B -2(系统有大量内存,并且 ATM 处于轻负载状态,因此没有交换使用并不奇怪)
  • 似乎没有遵循一致的模式或时间,复制间隔从几分钟两次到大约 1~2 小时一次不等 -然而我并不一定会注意到所有发生的事情;如果我花几分钟阅读一个文本网页,我想我可能不会注意到。

我已经运行btrfs scrub并重新启动了好几次,但看不出系统锁定的任何模式。我有备份,没有看到任何损坏,系统似乎在“恢复”后“恢复”了,没有任何问题 - 但这非常令人不安。

我如何才能收集足够的信息来帮助解决这个问题?

相关内容