我们使用 Hyper V 在 6 节点刀片故障转移群集上运行大量虚拟机。
我们遇到了虚拟机断网的间歇性问题(每隔几天,在不同的时间 - 不是固定频率)。对虚拟机的控制台访问表明一切正常,底层刀片具有正常连接。要解决该问题,我们要么必须重新启动虚拟机,要么更常见的是,我们实时迁移到另一个刀片以启动连接,然后将其迁移回原始刀片。
我已经遇到过 3 次这种情况,具体是运行在特定刀片上的特定 VM,但有一次是运行在另一刀片上的另一 VM。所有 VM 和刀片都具有相同的基本设置,并且运行的是 Windows 2008 R2。
由于事件日志没有提供任何帮助,我应该去哪里诊断该问题的可能原因?
编辑:
我已检查每个刀片是否运行最新的 NIC 驱动程序,并且一切似乎都正常。
让我感到困惑的是,故障转移或重新启动虚拟机可以解决问题。虽然我需要解决导致 NIC 挂起的根本问题,但我也担心虚拟机没有故障转移到另一个节点,这本来可以帮我解决中断问题。有没有办法配置集群,以便它可以知道虚拟机客户机已失去连接并进行故障转移?就目前情况而言,集群假设虚拟机运行正常,因为我推测 Hyper V 说一切都很好,尽管存在问题。
编辑:
我想更新一下,因为问题仍然未解决 - 出现频率较低,但受影响的虚拟机似乎仍然是随机的。最新检查显示,所有虚拟机都运行相同的 MPIO 驱动程序和虚拟网卡的相同驱动程序版本。一切看起来都与在同一刀片中心运行但在此集群之外的一些虚拟机相同,并且这些虚拟机从未遇到任何问题。
答案1
这可能是你的问题的答案:http://support.microsoft.com/kb/974909
答案2
您是否碰巧为交换机端口启用了端口安全性?请确保允许的 MAC 数量足够多。另外,您的父母的网络配置是什么样的?你们在合作吗?
答案3
这不是我所希望的理想答案,但在这种情况下,它对我们的设置有效......
我们将受影响的虚拟机从集群中移除,移除网卡,然后重新创建它们。同时,我们将每个刀片从集群中拉出,并在拉回之前更新所有驱动程序。
在我监控他们的接下来的 6 周内,连接丢失问题很明显——之后换了工作,这意味着我不确定问题是否仍然得到解决 ;)!