我一直在与正在构建的新服务器作斗争,在运行大约一天后,CPU 不断锁定。我以为是安装不当,所以我重新安装了 22.04 LTS,但仍然遇到同样的问题。现在这可能是 ZFS 问题,但我想先在这里问一下,因为这可能是我的 CPU 之间的 Ubuntu/Kernel 交互。唯一的出路是系统重置。日志似乎也没有太多信息。
基本上,大约每 24 小时(+/- 几个小时),我就会丢失与服务器的 ssh 会话,并且无法通过网络访问。以下是我在本地控制台上看到的示例。
NMI watchdog: Watchdog detected hard lockup on cpu 15
rcu: rcu_sched kthread timer wakeup didn't happen for 805965 jiffies! g9450769 f0x2 RCU_GP_WAIT_FQS(5) ->state=0x200
rcu: #Unless rcu_sched kthread gets sufficient CPU time, OOM is now expected behavior
rcu: INFO: rcusched detected expedited stalls on CPUs/task: { 2-... 14-...} 554795 jiffies s: 1301 root: 0x4204
watchdog: BUG: soft lockup - CPU#2 stuck for 2552s! [kworker/2:59748]
watchdog: BUG: soft lockup - CPU#14 stuck for 2917s! [systemd:1]
目前,系统上(除了基本 Ubuntu 22.04)只有 Zabbix 代理、OpenSSH 和 OpenZFS。我认为可能是 ZFS 的原因是我目前正在尝试为池重新同步 16TB 替换驱动器,也许这会导致问题。
在停止签入之前查看 Zabbix 日志中的 CPU 和内存,CPU % 为 5,内存使用率为 30%。交换为 8GB,100% 可用。
到目前为止我已经尝试了以下
- 重新安装 Ubuntu 22.04 LTS
- 默认个人简历
- 重新安装 CPU
- 重新安装 RAM
- 检查系统日志
硬件规格
- 中央处理器:Ryzen 7 1800x
- 内存:32GB DDR4 非 ECC 2133Mhz
- PCI 卡:Quadro P4000 GPU、LSI HBA、Intel 4x 1Gb Nic
- 磁盘:ZFS 池中 4x 16TB HDDS、2 个镜像 SSD 用于启动、zfs 池中 1 个 SSD 作为 l2arc。
- 操作系统版本:22.04.4 LTS