背景
我有一台 Ubuntu 18.04.5 LTS(服务器),运行着多项服务,包括常用的 ssh、samba 以及许多其他服务,包括家庭自动化、Nextcloud 等。它服务于我的整个数字生活,几个月前它表现得还不错。我应该补充一点,这台机器本身有一个 Xeon CPU、12GB ECC RAM 和一个运行镜像池的 ZFS 文件系统。据我所知,所有这些硬件都没有故障。我还尝试让 Ubuntu 保持最新状态,因此它会使用存储库中最新的补丁进行修补。
问题
最近,我注意到我遇到了短时间内奇怪的连接中断。有时我注意到 SSH 连接停止工作。其他时候我注意到我无法访问 Samba 文件共享,或者 Nextcloud 拒绝连接。不同的事情。一旦发生这种情况,我就会 ping 机器,并且 ping 工作正常,但我无法连接到任何事物。
故障排除
意识到端口连接似乎存在问题,我开始记录输出:
nc -v -w 5 -z 192.168.1.68 22
生成结果:
Tue Mar 23 08:18:00 GMT 2021 - Connection to 192.168.1.68 22 port [tcp/ssh] succeeded!
Tue Mar 23 08:18:05 GMT 2021 - nc: connect to 192.168.1.68 port 22 (tcp) failed: Connection refused
Tue Mar 23 08:18:10 GMT 2021 - nc: connect to 192.168.1.68 port 22 (tcp) failed: Connection refused
<---snip--->
Tue Mar 23 08:18:41 GMT 2021 - nc: connect to 192.168.1.68 port 22 (tcp) failed: Connection refused
Tue Mar 23 08:18:46 GMT 2021 - nc: connect to 192.168.1.68 port 22 (tcp) failed: Connection refused
Tue Mar 23 08:18:51 GMT 2021 - Connection to 192.168.1.68 22 port [tcp/ssh] succeeded!
Tue Mar 23 08:18:56 GMT 2021 - Connection to 192.168.1.68 22 port [tcp/ssh] succeeded!
请注意,连接问题的持续时间略少于一分钟。我查看了/var/log
、、甚至路由器日志中的日志;尝试关闭各种服务、LXC 实例、快照服务以及任何我可以不用的东西。我看不到与事件的任何关联,也看不到出现问题的迹象。例如,我看不到守护进程崩溃、记录错误、系统负载增加或在连接断开时(或之前)运行的任何特定服务。/var/snap/*/log
journalctl
nc
我也从服务器向客户端运行了类似的命令,并在该日志中我可以看到出站连接也有类似的问题,尽管持续时间较短。
向社区提问
我还能做什么来诊断这个问题?可能是硬件问题吗?例如:网络接口(嵌入在主板上)、路由器、电缆。如果是,我该如何检查?如果不是硬件问题,那么就只剩下软件问题了,但从哪里开始呢?
答案1
几个月前,我的服务器遇到了同样的问题,原来是路由问题,在我的情况下,我有两个以太网卡,都带有默认路由,因此我删除了一个,问题就解决了,请检查在您的情况下是否存在同样的问题。