ESXi 容错网络问题-FT 流量泛滥?

ESXi 容错网络问题-FT 流量泛滥?

我设置了一个 2 节点 vSphere 集群。每个节点都配备了 4x1GE NIC。我在每个节点中设置了一个 vSwitch,使用所有 4 个 vmnic 作为适配器和以下端口:

管理:vmKernel 端口 -> 在 vmnic0 上处于活动状态,在 vmnic1-2-3 上处于待机状态

vMotion 和 FT -> 在 vmnic3 上处于活动状态,在 vmnic0-1-2 上处于待机状态

工作负载 -> 在 vmnic0-1-2-3 上处于活动状态

根据原始虚拟端口进行路由。

我知道该解决方案并不理想,因为最佳实践建议为 vMotion/FT 设置物理分离的网络,但仍然如此。

我注意到没有 VM 映射到 vmnic3,因此它似乎仅由 vMotion/FT 使用。

然而,当启用 FT 时(在不执行任何操作的虚拟 WinServer 机器上),我注意到以下问题:

1) 与该机器的 ping 变得不稳定(最多 5 毫秒)

2) 捕获物理交换机上的统计信息,我注意到物理连接到 vMotion/FT NIC 的端口的输入速率为 300Mbps(这是预期的),但我还注意到连接到其他 vmnic 的所有端口的输出速率都为 300Mbps,就像物理交换机在所有其他端口上泛洪 FT 流量一样. 禁用 FT 时,所有 NIC 上的流量都会恢复到较小的值。

为什么是上述第 1 点和第 2 点?

编辑:所有端口都在同一个 VLAN 中。我知道这远非理想,但仍然无法解释上述第 1 点和第 2 点

答案1

交通被称为“单播泛滥”当交换机不确定将数据包发往何处时,就会发生这种情况。

当 vMotion 端口未在其自己的 VLAN 中隔离时,会发生单播泛洪,这是一个已知问题。VMware 对此并不十分清楚,这里有一篇很好的博客文章:http://virtuallyhyper.com/2012/03/vmotion-causes-unicast-flooding/

您可以将 NIC 分配给服务,但必须使用专用 VLAN 来处理 vMotion 流量。您的交换机端口需要是中继端口才能适应这种情况。

答案2

容错带宽不足。VMware 建议至少使用 10 Gb/s 的链路。 在实验室中,在某些情况下,即使是 2 vCPU VM 也需要大约 2.5 Gb/s 才能实现 FT。这就是复制 RAM 变化率所需要的。

重新检查您的恢复时间要求。非 FT VMware HA 可以在几分钟的停机时间内在不同的主机上启动虚拟机。

如果您对 FT 很认真,请考虑将其中 3 或 4 个 1 Gb 链路专用于 FT,或升级到 25 Gb 以太网之类的链路。

相关内容