非常奇怪的服务器崩溃/网络问题

非常奇怪的服务器崩溃/网络问题

结论

我有 3 个 Linux 机器。它们分别运行了 9、6 和 3 个小时,没有出现任何问题。但它们同时停止了对 ssh 和 ping 的响应。

重新启动/检查网络没有解决任何问题。

重启了 C 盒,a start job is running for raise network interfaces但仍然没有 ping 信号

重启盒子 B - 开始在 A 和 C 上收到 ping

盒子 B 如何阻止盒子 A 和 C 响应。我的网络其余部分都很好。

更新:

第二天早上也发生了这种情况。所有 3 个盒子同时坏了。我关闭了盒子 B,其他 2 个又恢复了响应。

我也尝试过为机器运行物理网线,但也没有帮助。

完整故事

我在尝试设置的 Linux 机器上遇到了很多可靠性问题。我有 2 台机器,A、B 和 C。

这些盒子是采矿设备,我正试图缩小其中一个硬件问题的范围,导致它不断重启/无响应。

但是我现在认为这可能是网络问题。症状是它们对 ssh 完全没有响应 - 我甚至无法退出我的客户端,只能硬关闭它。

我认为这是因为机器崩溃了(所有 3 台机器都没有头,所以我无法通过屏幕查看发生了什么)。

今晚我整天都在运行机器,以确保当前削减的硬件配置是稳定的。机器已经运行了 9 个小时、6 个小时、3 个小时,或者类似的时间。

我在所有 3 台机器上同时遇到了 ssh 不响应的问题。我也无法 ping 机器。

此时我认为是网络问题,如果我重新启动网络,ping 就会恢复。

我检查了网络(Google WiFi),一切正常,但我还是重新启动了它,却什么也没得到。

然后我重启了 C 盒。我看着它启动,然后卡在了

a start job is running for raise network interfaces

并等待了5分钟才完成启动,但我仍然无法ping通它。

然后我重新启动了盒子B。

此时我又开始收到来自盒子 A 和 C 的 ping ......!!!

这到底是怎么回事?盒子 B 怎么能抹去盒子 A 和 C 上的所有网络通信呢?

我完全不知所措了!

这些盒子都是 Ubuntu Server 最新版本(16 左右)

相关内容