我一直在尝试设置一个新的无头 Ubuntu 服务器,但遇到了各种问题,崩溃和服务器不再可用。我最初以为这是硬件问题,服务器崩溃了 - 因为机器在不响应 ssh 或 ping 时处于无头状态,所以你无能为力。
我现在认为这是一个网络问题。
概括
我有 3 台 Ubuntu 服务器,全部连接到一台交换机,该交换机连接到 Google Wifi 点。它们都是挖矿设备,但我认为这无关紧要。
在随机间隔内(可能是启动后 30 分钟或 9 小时),所有这 3 台机器同时停止响应 ping 或 ssh 请求。
我的网络的其余部分(在另外 2 个 Google Wifi 节点上)正常,似乎没有受到任何影响。
连接3台机器的交换机上有大量流量(只是通过观察交换机上的指示灯猜测的)。
当我断开其中一台机器与交换机的连接时,另外两台机器立即开始再次响应 ping 和 ssh,而当我在 30 秒后重新连接机器时,它们又全部死机了。
调查
在尝试调试这里发生的事情时,我尝试了各种各样的方法。
当网络处于这种状态时,我能够从我的笔记本电脑上 ping 一个地址,该笔记本电脑位于 wifi 上,当我将该笔记本电脑连接到受影响的网络交换机时,它无法 ping 任何东西 - 3 台 ubuntu 机器或网络上其余部分的任何东西。
这些机器对公共互联网的唯一暴露是有一个非标准端口(在 3000 范围内)转发到 ssh 的端口 22。
ssh 的密码访问已关闭,并且仅通过公钥/私钥授予访问权限。
所有机器都是在过去一周左右新创建的,并且是 Ubuntu Server 16。我没有在它们上安装太多东西:
- 纳米
- nvidia 驱动程序
- 挖矿软件(Claymore 以太坊)
- ssh 服务器
- 卷曲
- tmux
- 节点
我想就是这样
现在怎么办?
我真的不知道该怎么办。我开始怀疑其中一台机器中存在恶意程序,它正在参与某种 DDOS 攻击或类似的事情 - 但我的互联网速度似乎没有受到影响。
有人能建议这里发生了什么事或者我该如何进一步调试或解决这个问题吗?
非常感谢