我有一个独立的 ESXi 5.5.0 b2143827。它在具有 144GB RAM 的 Dell R710 上运行。它上面有大约 20 个虚拟机。
目前,我无法通过 VMWare vSphere 客户端或 SSH 进入控制台。它就像服务器不存在一样。主机似乎会在随机时间返回,我可以通过 SSH 和 vSphere 客户端进入主机,但之后它会在将来某个不确定的时间再次断开网络。我可以通过物理主机本身上的紧急控制台访问它 ( Alt+F1
)。
但是,所有虚拟机都处于活动状态并正常工作。但是,每天大约有 10 次,所有虚拟机都会断网 15 秒到 5 分钟。然后它们会恢复正常,一切继续运行。
我已完成以下操作:
- 这是以前的版本,我将其更新为 b2143827。这没什么区别
/sbin/services.sh restart
- 这无助于解决问题- 重新启动了物理主机。这没有什么区别。
- 我从物理控制台 (
Alt+F1
) ping 了网络上的另一个物理设备。它根本没有丢弃任何数据包。 - 我从物理控制台 ping 了主机上的虚拟机。它损失了大约 80%
- 从远程计算机,我可以 ping 管理 IP 地址,且数据包丢失率为 0%
- 从远程机器上,我可以 ping 主机上的虚拟机,并且可以清楚地看到主机偶尔断网并重新上线
- 我观察
tail -f /var/log/hostd.log
了一会儿,发现那里没有发生任何异常情况 - 系统安装在 SD 卡上。我关闭了服务器,
DD
将卡移到另一张卡上,然后在新卡上启动它。同样的问题。 - 尝试了不同的网络交换机
- 运行戴尔更新管理器并将每个固件更新到最新版本。
我不知道接下来该怎么办。这台服务器在过去 2.5 年里运行完美。VMWare 以前安装在物理驱动器上,但 6 个月前它被移到了 SD 卡上,这样我们就可以重新配置物理驱动器。
答案1
答案2
经过三天不间断的故障排除,我最终发现问题是......等一下......我们的 Cisco ASA 出现故障并用虚假流量淹没网络。
因为我们运行的是相当基本的切换,并且服务器环境是 100%虚拟化的,所以我们没有注意到网络堆栈内部的任何内容。
我在这里遇到的最大麻烦是从主机 ping 客户操作系统。我原本以为这与物理网卡完全无关,但显然不是。
我最终通过镜像交换机上的管理端口并使用 Wireshark 观察往返流量找到了问题,看到流量离开源端口,但从未到达目的地。因为我无法在网络内部看到它,所以我只花了 4 个小时就将 ASA 隔离为问题的根源。
自从从网络中删除 ASA 后,一切都顺利了。
事实证明,ASA 并没有自己出问题,而是有人创建了一条没有 的损坏的 NAT 规则no-proxy-arp
,因此它开始响应整个内部 /24 上的 ARP 请求。删除该规则并严厉惩罚添加该规则的人,现在我们就知道了是什么、为什么和谁。
这也解释了为什么主机专用网络无法按预期工作。ASA 正在响应 ARP 请求,因此主机不知道将其设为主机专用网络请求。