我们最近将 Cisco 6500 核心交换机换成了一对 Dell PowerConnect 6248 堆叠。从那时起,我们的网络负载平衡 Sharepoint(在 ESX 群集上的两个虚拟机上运行)就表现得非常糟糕。症状是打开和保存存储在 SharePoint 中的文档需要很长时间。Sharepoint 服务器或 SQL 服务器上没有显示任何错误,只是有很多恼人的用户。最初我认为 NLB 不可能导致这种情况,但是一旦我们将内部网的 DNS 记录重新指向其中一个 Web 前端的 IP 地址,问题就消失了。
我们怀疑戴尔配置中存在与多播相关的问题 - NLB 配置为多播,但未配置 IGMP。
有没有人与我们进行过类似的设置并修复了此类问题?VMware ESX 上的 Sharepoint,带有 Dell PowerConnect 交换机。
答案1
我们遇到了几乎相同的问题。我们正在使用 NLB 和多播(但不是 IGMP)来平衡插入一对堆叠的 Dell PowerConnect6248 的两个 ESX 4 服务器上的 14 个 Web 服务器的负载。nlb 可以工作,但性能很差。我们尝试更改 nlb(单播、多播、igmp)和 vmware 交换机(promicous、nitify 交换机等)上的所有内容,但无法使其工作。我们将多播 MAC 添加到 dell 桥接器和 arp 表中,但都不起作用。我们最终通过关闭 PowerConnect 上的 VLAN 路由(即使用简单的第 2 层 VLAN)并使用外部路由器路由流量解决了这个问题。很想知道如何使用 Dell 上的路由来实现这一点,因为它应该得到支持。
答案2
听起来很熟悉。我遇到了完全相同的问题。在一组 ESX VM 上,Exchange 和 Sharepoint 上的 NLB,只要有流量到 NLB,它就会停止运行。我们与戴尔密切合作,问题出在多播上。据说戴尔有一份关于此问题的白皮书,其中说您必须使用单播而不是多播。
现在我们正在等待将 NLB 移至单播。我们有 30 多个这样的交换机,现在都运行 3.2.0.7。v3 固件是一个很大的改进,但如果您从 v2 升级,请小心,并确保阅读其说明,这不是简单的安装和重启。此外,有些东西的配置方式不同,例如 DHCP 中继。一开始它就严重破坏了我们的 NLB。
如果您不相信,请尝试 ping 管理接口(图形化工具,如 PingPlotter),同时监控 NLB 的流量。您将看到 ping 时间与流量大小相关。我们的 ping 时间从 1ms 增加到超过 200ms,甚至出现丢包。管理接口锁定,因为交换机处理器正在处理多播,而不是在硬件中完成。
希望这会有所帮助,当我们最终搬过去时我会回复。
答案3
一些戴尔交换机不支持多播 NLB。这就是您遇到性能问题的原因。您还会看到 CPU 使用率过高。您可以通过此链接查看有关此问题的更多信息。
http://www.dell.com/us/business/p/powerconnect-6200-series/pd
另一个有关管理网络 ping 丢失的情况与固件修订有关。新固件解决了该问题。我建议您更新固件级别。