CPU 一直挂起。TTY 和控制台已锁定。看门狗:BUG:软锁定

CPU 一直挂起。TTY 和控制台已锁定。看门狗:BUG:软锁定

我一直在与正在构建的新服务器作斗争,在运行大约一天后,CPU 不断锁定。我以为是安装不当,所以我重新安装了 22.04 LTS,但仍然遇到同样的问题。现在这可能是 ZFS 问题,但我想先在这里问一下,因为这可能是我的 CPU 之间的 Ubuntu/Kernel 交互。唯一的出路是系统重置。日志似乎也没有太多信息。

基本上,大约每 24 小时(+/- 几个小时),我就会丢失与服务器的 ssh 会话,并且无法通过网络访问。以下是我在本地控制台上看到的示例。

NMI watchdog: Watchdog detected hard lockup on cpu 15
rcu: rcu_sched kthread timer wakeup didn't happen for 805965 jiffies! g9450769 f0x2 RCU_GP_WAIT_FQS(5) ->state=0x200
rcu: #Unless rcu_sched kthread gets sufficient CPU time, OOM is now expected behavior
rcu: INFO: rcusched detected expedited stalls on CPUs/task:  { 2-... 14-...} 554795 jiffies s: 1301 root: 0x4204
watchdog: BUG: soft lockup - CPU#2 stuck for 2552s! [kworker/2:59748]
watchdog: BUG: soft lockup - CPU#14 stuck for 2917s! [systemd:1]

目前,系统上(除了基本 Ubuntu 22.04)只有 Zabbix 代理、OpenSSH 和 OpenZFS。我认为可能是 ZFS 的原因是我目前正在尝试为池重新同步 16TB 替换驱动器,也许这会导致问题。

在停止签入之前查看 Zabbix 日志中的 CPU 和内存,CPU % 为 5,内存使用率为 30%。交换为 8GB,100% 可用。

到目前为止我已经尝试了以下

  1. 重新安装 Ubuntu 22.04 LTS
  2. 默认个人简历
  3. 重新安装 CPU
  4. 重新安装 RAM
  5. 检查系统日志

硬件规格

  • 中央处理器:Ryzen 7 1800x
  • 内存:32GB DDR4 非 ECC 2133Mhz
  • PCI 卡:Quadro P4000 GPU、LSI HBA、Intel 4x 1Gb Nic
  • 磁盘:ZFS 池中 4x 16TB HDDS、2 个镜像 SSD 用于启动、zfs 池中 1 个 SSD 作为 l2arc。
  • 操作系统版本:22.04.4 LTS

相关内容