意外的服务器崩溃

意外的服务器崩溃

我的运行 Ubuntu 桌面(Ubuntu 22.04.2 LTS(GNU/Linux 5.19.0-38-generic x86_64)的 ubuntu 服务器在过去 24 小时内意外开始崩溃。

这似乎是随机发生的。在此期间,服务器上的风扇以 100% 的速度旋转,SSH 访问被锁定。硬件电源重置后,我可以再次获得访问权限,服务器似乎运行正常。12 小时后又发生了同样的事情。由于我现在已经看到 24 小时内重启了 2 次,我不能将此归因于孤立事件。

我已检查过的内容:

  1. 运行操作系统的 SSD 上还有 91GB 可用空间,因此我认为这与磁盘空间无关
  2. 最近有更改?我可能最近进行了更新/升级安装,但我已经多次这样做了,没有问题
  3. 可能是随机硬件问题,但未受到任何撞击或跌落。硬件仍有可能出现故障
  4. dmesg 显示了一些 CIFS 错误。但是,如果这导致它挂起/崩溃,我会感到非常惊讶。我最近没有对 fstab 进行任何更改,不明白为什么这会导致服务器如此严重地锁定。

请问我该如何调查?这可能是硬件问题还是软件问题?

我不愿意重新安装 Ubuntu,因为上面有很多设置/配置,需要很长时间才能替换。是的 - 我应该备份我的配置和部署,并会在可以的时候这样做...

感谢您的时间

kern.log(崩溃之前)

Apr  9 20:26:13 cruz-NUC8i5BEH kernel: [43628.769841] perf: interrupt took too long (2518 > 2500), lowering kernel.perf_event_max_sample_rate to 79250
Apr  9 20:31:36 cruz-NUC8i5BEH kernel: [43952.000935] perf: interrupt took too long (3183 > 3147), lowering kernel.perf_event_max_sample_rate to 62750
Apr  9 20:41:37 cruz-NUC8i5BEH kernel: [44552.665406] perf: interrupt took too long (3984 > 3978), lowering kernel.perf_event_max_sample_rate to 50000

系统日志(崩溃前的最后一行)

Apr  9 20:44:20 cruz-NUC8i5BEH jellyfin[1238]: [20:44:20] [INF] FFmpeg exited with code 0

auth.log(重启发生在 20:59 之前约 30 秒)

Apr  9 20:30:01 cruz-NUC8i5BEH CRON[128833]: pam_unix(cron:session): session closed for user root
Apr  9 20:59:21 cruz-NUC8i5BEH sshd[793]: Server listening on 0.0.0.0 port 22.
Apr  9 20:59:21 cruz-NUC8i5BEH sshd[793]: Server listening on :: port 22.

dmesg - 直到重启后才显示任何内容,因此没有什么价值

相关内容