几天前,我们偶然发现了一个令人不安的问题,该问题与相对较新安装的 ESXi 5 VDI 管理主机有关。我们正在为链接克隆部署准备一个基础虚拟机,当从另一台机器(“\vm\c$”)访问其管理共享时,整个管理网络都会锁定。我们可以浏览一会儿,但在浏览了几个文件夹后,Explorer 就会挂起。主机及其内部的所有其他虚拟机都无法从 vSphere Client 访问。如果我亲自走到 ESXi 服务器,我可以登录并重新启动它,它会恢复正常。99% 的时间里,我都可以使用任何基于 Windows 的虚拟机(7 和 2008R2)可靠地使其崩溃。今天,我尝试了服务器上的不同物理端口(共有 4 个),发现一旦它在端口上崩溃,将其移动到另一个端口并重新启动管理网络就可以让我重新进入,但如果我远程启动共享,我也会使该端口崩溃。重新启动可以解决所有问题。
我仔细检查了服务器上的日志,没有找到任何有用的信息。有什么想法吗?
答案1
在与 VMware 支持人员沟通了大约一个小时后,我们终于找到了问题的根源。Broadcom 的以太网驱动程序和 VMware 之间存在一个已知错误。通过禁用 NetQ,问题目前已经消失。当我通过网络浏览某些文件夹时,我仍然看到几秒钟的延迟,但它最终会加载并且不会使 NIC 崩溃。
~ # esxcfg-nics -l
Name PCI Driver Link Speed Duplex MAC Address MTU Description
vmnic0 0000:01:00.00 tg3 Up 1000Mbps Full 24:b6:fd:f6:xxxx 1500 Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic1 0000:01:00.01 tg3 Down 0Mbps Half 24:b6:fd:f6:xxxx 1500 Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic2 0000:02:00.00 tg3 Down 0Mbps Half 24:b6:fd:f6:xxxx 1500 Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic3 0000:02:00.01 tg3 Down 0Mbps Half 24:b6:fd:f6:xxxx 1500 Broadcom Corporation NetXtreme BCM5720 Gigabit Ethernet
vmnic4 0000:42:00.00 ixgbe Down 0Mbps Half 90:e2:ba:0f:xxxx 1500 Intel Corporation 82599EB 10-Gigabit SFI/SFP+ Network Connection
vmnic5 0000:42:00.01 ixgbe Down 0Mbps Half 90:e2:ba:0f:xxxx 1500 Intel Corporation 82599EB 10-Gigabit SFI/SFP+ Network Connection
计算 Broadcom/tg3 NIC 的数量(在我们的例子中是 4 个)。
~ # esxcfg-module -s force_netq=0,0,0,0 tg3
重新启动主机就完成了。