我是 Ubuntu 以及 askubuntu.com 的新手。
我最近遇到了一个有故障的系统,所以我正在寻求帮助。
//
我有一个基于 Ubuntu 的无监视器服务器,我通常使用笔记本电脑通过 ssh/sftp 连接该机器。
该机器位于具有空调冷却系统和稳定电源的服务器机房中,并且全天候开启,并且我已经为机器分配了公共 IP,并使用 UFW 设置以确保安全。
该机器用于使用 GPU 加速的深度学习编程,并通过私有 IP 在内部网络中通过 ssh 连接到其他服务器。
//
问题和症状
四个月前,这台机器开始自动重启或死机(系统崩溃),而之前八个月都没有问题。
“崩溃”的意思是机器停止工作,所有风扇也停止了,并且电源似乎断了。
一旦机器出现故障,我必须手动拔出电源连接,等待剩余电力消失,再重新插入电源连接,最后按下电源按钮打开机器。
这里,奇怪的事情如下:
(1) 重启/死机频率变短,现在死机频率比重启频率高很多,而且系统故障周期也由原来的2~3周变为1周以内,有时甚至3天以内。
(2) 机器崩溃/重启,无需额外进程。通常,机器仅使用默认进程自行重启。我还多次运行了使用全 CPU 和全 GPU 的负担进程,但没有发生重启/崩溃。(所以,我不认为这是热问题。)
(3) 机器甚至在简单的 ssh/sftp 连接时也经常崩溃。这件事发生后,我用last -x
命令检查过,系统上没有出现过任何故障(机器从上次故障中恢复后)。
(4)我也检查过了syslog
,没有发现可疑的日志。
(5)另外,ssh 连接经常会延迟或丢失连接,而不会导致系统重启/崩溃(管道断裂)。
//
硬件规格
这里是硬件规格:
CPU:Intel i7-11700KF(带附加 CPU 冷却器)
主板:英特尔 Z590
内存:三星 32GB * 4EA
SSD:三星 M2 NVME 1TB * 2EA
GPU:NVIDIA RTX3090 * 2EA
电源:Seasonic PX-1300
+)Ubuntu 20.04.4 LTS
//
我已经检查了 RAM 和存储记忆测试和智能控制,检查结果也表示一切正常。
您能帮我解决这个问题吗?我下一步应该检查什么?如果我需要提供任何信息,我会通过更新此帖子来添加它。
编辑:@waltinator
我检查了日志,除了 UFW BLOCK 日志外,一切似乎都很正常。(因为我有其他链接到私有 IP 的机器,所以我可以与它们进行比较。而且,这些机器没有 UFW BLOCK 日志,因为它们在安全网络中,所以我没有设置 UFW。)
有大量的 UFW BLOCK 日志(因为我已经设置了 UFW 来防御来自匿名来源的不必要的攻击),但是 SRC 和 DST 看起来很好。
例如,以下内容:
Jun 9 11:45:51 (removed) kernel: [70349.077829] [UFW BLOCK] IN=(removed) OUT= MAC=(removed) SRC=192.168.0.1 DST=224.0.0.1 LEN=32 TOS=0x00 PREC=0x00 TTL=1 ID=51159 DF PROTO=2
Jun 9 11:46:21 (removed) kernel: [70379.078710] [UFW BLOCK] IN=(removed) OUT= MAC=(removed) SRC=192.168.0.1 DST=224.0.0.1 LEN=32 TOS=0x00 PREC=0x00 TTL=1 ID=10357 DF PROTO=2
SRC=192.168.163.XXX DST=224.0.0.251 (the SRC is the other machine that I'm using within the same network router)
如果我从无线路由器上移除机器并直接连接到 LAN 电缆,最后的阻止消息SRC=192.168.163.XXX DST=224.0.0.251
就会从日志中消失。
请参见下文。
编辑:一般
据我检查,似乎UTF BLOCK
不是直接重启或系统崩溃,大量的UTF BLOCK
日志是由于内部/外部网络冲突造成的。
然而,它似乎UTF BLOCK
充当了随机进程,导致了重启/崩溃。
我猜想机器由于随机进程(包括)而重新启动或关闭并崩溃,UFW BLOCK
因为症状(5)此外,ssh 连接经常会延迟或丢失连接,而不会导致系统重启/崩溃(管道断裂)当我将机器不通过网络路由器直接连接到 LAN 后,不会出现这种情况。
此外,CPU/GPU 使用率稳定,据我从 IT 团队了解,没有来自外部的匿名攻击。
这可能是由于硬件问题造成的吗?