ESXi 独立版上的主机和虚拟机连接间歇性

ESXi 独立版上的主机和虚拟机连接间歇性

我有一个独立的 ESXi 5.5.0 b2143827。它在具有 144GB RAM 的 Dell R710 上运行。它上面有大约 20 个虚拟机。

目前,我无法通过 VMWare vSphere 客户端或 SSH 进入控制台。它就像服务器不存在一样。主机似乎会在随机时间返回,我可以通过 SSH 和 vSphere 客户端进入主机,但之后它会在将来某个不确定的时间再次断开网络。我可以通过物理主机本身上的紧急控制台访问它 ( Alt+F1)。

但是,所有虚拟机都处于活动状态并正常工作。但是,每天大约有 10 次,所有虚拟机都会断网 15 秒到 5 分钟。然后它们会恢复正常,一切继续运行。

我已完成以下操作:

  • 这是以前的版本,我将其更新为 b2143827。这没什么区别
  • /sbin/services.sh restart- 这无助于解决问题
  • 重新启动了物理主机。这没有什么区别。
  • 我从物理控制台 ( Alt+F1) ping 了网络上的另一个物理设备。它根本没有丢弃任何数据包。
  • 我从物理控制台 ping 了主机上的虚拟机。它损失了大约 80%
  • 从远程计算机,我可以 ping 管理 IP 地址,且数据包丢失率为 0%
  • 从远程机器上,我可以 ping 主机上的虚拟机,并且可以清楚地看到主机偶尔断网并重新上线
  • 我观察tail -f /var/log/hostd.log了一会儿,发现那里没有发生任何异常情况
  • 系统安装在 SD 卡上。我关闭了服务器,DD将卡移到另一张卡上,然后在新卡上启动它。同样的问题。
  • 尝试了不同的网络交换机
  • 运行戴尔更新管理器并将每个固件更新到最新版本。

我不知道接下来该怎么办。这台服务器在过去 2.5 年里运行完美。VMWare 以前安装在物理驱动器上,但 6 个月前它被移到了 SD 卡上,这样我们就可以重新配置物理驱动器。

答案1

我建议更新 Dell PowerEdge 服务器上 Broadcom NIC 的固件。除了特定于 VM 的 ping 之外,您还看到外部连接问题,这表明存在 NIC 问题。

  • 您可以尝试另一个 NIC 设备吗?(此主机有四个
  • 您从标准 vSwitch 获得了多少个上行链路?(你应该有多个实时上行链路
  • 该问题的重现性如何?

关于 SDHC 启动,我实际上只提倡在属于 vSphere 集群并具有共享存储的 ESXi 服务器上使用 SD/USB 启动。由于故障模式在 ESXi 下,使用这些卡启动独立系统没有任何优势。请参阅 ESXi 之间的差异可安装和嵌入模式

答案2

经过三天不间断的故障排除,我最终发现问题是......等一下......我们的 Cisco ASA 出现故障并用虚假流量淹没网络。

因为我们运行的是相当基本的切换,并且服务器环境是 100%虚拟化的,所以我们没有注意到网络堆栈内部的任何内容。

我在这里遇到的最大麻烦是从主机 ping 客户操作系统。我原本以为这与物理网卡完全无关,但显然不是。

我最终通过镜像交换机上的管理端口并使用 Wireshark 观察往返流量找到了问题,看到流量离开源端口,但从未到达目的地。因为我无法在网络内部看到它,所以我只花了 4 个小时就将 ASA 隔离为问题的根源。

自从从网络中删除 ASA 后,一切都顺利了。


事实证明,ASA 并没有自己出问题,而是有人创建了一条没有 的损坏的 NAT 规则no-proxy-arp,因此它开始响应整个内部 /24 上的 ARP 请求。删除该规则并严厉惩罚添加该规则的人,现在我们就知道了是什么、为什么和谁。

这也解释了为什么主机专用网络无法按预期工作。ASA 正在响应 ARP 请求,因此主机不知道将其设为主机专用网络请求。

相关内容