我的 Ubuntu 服务器随机重启或系统崩溃

我的 Ubuntu 服务器随机重启或系统崩溃

我是 Ubuntu 以及 askubuntu.com 的新手。

我最近遇到了一个有故障的系统,所以我正在寻求帮助。

//

我有一个基于 Ubuntu 的无监视器服务器,我通常使用笔记本电脑通过 ssh/sftp 连接该机器。

该机器位于具有空调冷却系统和稳定电源的服务器机房中,并且全天候开启,并且我已经为机器分配了公共 IP,并使用 UFW 设置以确保安全。

该机器用于使用 GPU 加速的深度学习编程,并通过私有 IP 在内部网络中通过 ssh 连接到其他服务器。

//

问题和症状

四个月前,这台机器开始自动重启或死机(系统崩溃),而之前八个月都没有问题。

“崩溃”的意思是机器停止工作,所有风扇也停止了,并且电源似乎断了。

一旦机器出现故障,我必须手动拔出电源连接,等待剩余电力消失,再重新插入电源连接,最后按下电源按钮打开机器。

这里,奇怪的事情如下:

(1) 重启/死机频率变短,现在死机频率比重启频率高很多,而且系统故障周期也由原来的2~3周变为1周以内,有时甚至3天以内。

(2) 机器崩溃/重启,无需额外进程。通常,机器仅使用默认进程自行重启。我还多次运行了使用全 CPU 和全 GPU 的负担进程,但没有发生重启/崩溃。(所以,我不认为这是热问题。)

(3) 机器甚至在简单的 ssh/sftp 连接时也经常崩溃。这件事发生后,我用last -x命令检查过,系统上没有出现过任何故障(机器从上次故障中恢复后)。

(4)我也检查过了syslog,没有发现可疑的日志。

(5)另外,ssh 连接经常会延迟或丢失连接,而不会导致系统重启/崩溃(管道断裂)。

//

硬件规格

这里是硬件规格

CPU:Intel i7-11700KF(带附加 CPU 冷却器)

主板:英特尔 Z590

内存:三星 32GB * 4EA

SSD:三星 M2 NVME 1TB * 2EA

GPU:NVIDIA RTX3090 * 2EA

电源:Seasonic PX-1300

+)Ubuntu 20.04.4 LTS

//

我已经检查了 RAM 和存储记忆测试智能控制,检查结果也表示一切正常。

您能帮我解决这个问题吗?我下一步应该检查什么?如果我需要提供任何信息,我会通过更新此帖子来添加它。


编辑:@waltinator

我检查了日志,除了 UFW BLOCK 日志外,一切似乎都很正常。(因为我有其他链接到私有 IP 的机器,所以我可以与它们进行比较。而且,这些机器没有 UFW BLOCK 日志,因为它们在安全网络中,所以我没有设置 UFW。)

有大量的 UFW BLOCK 日志(因为我已经设置了 UFW 来防御来自匿名来源的不必要的攻击),但是 SRC 和 DST 看起来很好。

例如,以下内容:

Jun  9 11:45:51 (removed) kernel: [70349.077829] [UFW BLOCK] IN=(removed) OUT= MAC=(removed) SRC=192.168.0.1 DST=224.0.0.1 LEN=32 TOS=0x00 PREC=0x00 TTL=1 ID=51159 DF PROTO=2 
Jun  9 11:46:21 (removed) kernel: [70379.078710] [UFW BLOCK] IN=(removed) OUT= MAC=(removed) SRC=192.168.0.1 DST=224.0.0.1 LEN=32 TOS=0x00 PREC=0x00 TTL=1 ID=10357 DF PROTO=2 
SRC=192.168.163.XXX DST=224.0.0.251 (the SRC is the other machine that I'm using within the same network router)

如果我从无线路由器上移除机器并直接连接到 LAN 电缆,最后的阻止消息SRC=192.168.163.XXX DST=224.0.0.251就会从日志中消失。

请参见下文。


编辑:一般

据我检查,似乎UTF BLOCK不是直接重启或系统崩溃,大量的UTF BLOCK日志是由于内部/外部网络冲突造成的。

然而,它似乎UTF BLOCK充当了随机进程,导致了重启/崩溃。

我猜想机器由于随机进程(包括)而重新启动或关闭并崩溃,UFW BLOCK因为症状(5)此外,ssh 连接经常会延迟或丢失连接,而不会导致系统重启/崩溃(管道断裂)当我将机器不通过网络路由器直接连接到 LAN 后,不会出现这种情况。

此外,CPU/GPU 使用率稳定,据我从 IT 团队了解,没有来自外部的匿名攻击。

这可能是由于硬件问题造成的吗?

相关内容