最近,我们的一个服务器堆栈出现了问题。我们的两台 2008 R2 服务器运行在一个集群中,该集群设置为在检测到故障时实时迁移虚拟机。
这些服务器的硬件完全相同;它们是专门为此目的而订购的。几个月前,实时迁移一直运行良好,直到我们注意到 VIR001 无法迁移到 VIR002。我调查了这个问题,我知道这通常是由不正确命名的资源引起的,但这似乎不是这种情况。
VIR002 将实时迁移其托管的任何虚拟机到 VIR001。VIR001 不会实时迁移任何虚拟机到 VIR002。不知道从哪里开始,我注意到 VIR001 上有几个时间服务器错误,但如果问题是由于同步问题引起的,那么两台服务器会不会遇到同样的问题?
现在,正在寻找要检查的内容的想法。谢谢,
(更新:我已经运行了故障转移群集验证工具,没有发现任何问题。我无法运行磁盘验证,因为我们的群集仍然与群集处于在线状态。有问题的两台服务器也被设置为群集资源的可能所有者)
答案1
嗯,终于找到问题了:
我注意到一些创建的集群网络不合法(即它们只包含一个 NIC,或者与不同子网上的 NIC 配对)。我已禁用这些。我的同事告诉我,在物理服务器上绑定可能会有所不同。我更改了这些。我验证了集群,确保所有节点都将两台服务器列为可能的所有者,最重要的是,我在虚拟机资源的属性下找到了“实时迁移网络”选项卡。
我已在“实时迁移网络”中对集群网络进行了排序,即实时迁移集群网络排在第一位,其次是所有活动网络,禁用的网络排在最下面。结果并不理想。今天,在更改绑定后,我决定禁用“实时迁移”选项卡中除三个内部网络(LM、主机、集群域)之外的所有集群网络。现在一切正常。
不确定是什么原因导致的。去年我们没有对硬件进行任何物理更改。至少 4 个月前它还能正常工作。看起来集群管理器并不总是听从自己的设置。
感谢您对这个问题的答复。