不稳定的 10Gb 铜缆链路、Broadcom 和 Intel 卡到 Cisco 4900M 交换机

不稳定的 10Gb 铜缆链路、Broadcom 和 Intel 卡到 Cisco 4900M 交换机

我们购买了一些带有 QLogic/Broadcom BCM57810 PCI Express 卡的 Dell PowerEdge R730 服务器,并将它们连接到 Cisco 4900M 交换机 - 10Gb 链路工作不稳定。它们有时无法连接,有时几分钟后才能连接,即使连接了,一天也会断线好几次。断线时间可能长达 4 分钟或 2 小时。

Cisco 交换机已拥有与 Dell PowerVault SAN 相连的 10Gb 铜缆链路,这些链路已经稳定运行了数月。

我在 VMware 日志中看到断开连接的消息如下:

bnx2x 0000:82:00.1: vmnic5: NIC Link is Down

 network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.

我看不到任何有用的错误代码或先前的消息,只有链接断开导致的消息。在 Windows 上,它显示为断开连接的卡,在交换机上,它显示为断开连接的交换机端口。

当链接连接时,它们会工作 - 巨型帧 ping 成功,iSCSI 会话建立,数据存储出现,所有路径都已找到。但连接时断时续。

我们已经检查过:

  • 电缆:
    • 原来是Cat5e单根线缆,现在为Cat6结构化布线,线缆总长<7m。
    • 使用新电缆连接,主机到交换机之间没有补丁/接头,附近也没有其他电缆。
  • 驱动程序/操作系统:
    • 最初是 VMware ESXi 5.5 U2 Dell 版本(“ESXi 5.5.0, 2068190”),带有 bnx2x 驱动程序版本 2.710.39.v55.2
    • 然后从 vmware.com 下载更新的驱动程序,bnx2x 版本 2.710.70.v50.7
    • 然后是 ESXi 6.0,Dell 版本(“ESXi 6.0.0 2494585”),其具有 bnx2x 版本 2.712...
    • 然后使用来自戴尔网站的最新驱动程序的 Windows Server 2012 R2。
  • QLogic/Broadcom 网卡固件;这是戴尔的最新版本,FFv7.12.17。
  • 交换机端口配置,非常mtu 9000简单switchport access vlan NNN
  • 交换机端口
    • 这些是 8 端口 10Gb RJ45 模块 (WS-X4908-10G-RJ45),每个交换机一个。SAN 占用每个模块的前四个端口,新服务器占用每个模块的其余四个端口。这似乎会影响我们用于新服务器的所有端口。因此,这不是一个端口或一个模块出现故障。
    • 我没有尝试中断 SAN 连接来测试这些端口,因为没有特定的理由认为端口 1-4 比端口 5-8 更可靠,而后者是最后手段。
  • 交换机接口计数器,除断开连接外没有错误。
  • 禁用 Windows QLogic/Broadcom 驱动程序中的各种卸载功能,并启用 EnergyEfficientEthernet,强制卡为 10Gb 而不是自动检测。
  • 将相同的主机连接到相同的交换机的 1Gb 端口,这似乎工作正常,它们可以非常快速地重复连接。
  • 交叉连接两台主机,它们以 10Gb 的速度快速连接并保持数天的稳定连接。
  • 我们买了一张 Intel X540-t2 卡,并试了一下。它的表现是一样的。
  • 从那时起,我们就购买了 Cat 6a 跳线并对其进行了测试,没有任何变化。

我们打电话给戴尔支持部门,他们没有发现任何问题并认为是交换机有问题,但由于交换机运行 10Gb 铜缆连接到戴尔 PowerVault 存储,而且据我从我们的交换机监控日志和 SAN 事件日志中了解,这些链接没有断开,所以我不愿意认为思科交换机是问题所在。

他们运行的 IOS 15.1(1)SG2 不是最新版本,但交换机处于运行状态并且稳定,我不想“以防万一”随便更改固件。

这种情况发生在多台服务器、多张网卡、多个品牌的网卡、多个驱动程序版本、多个交换机上。不可能是单个硬件出现故障。它们全都位于装有空调和电源的机架中。

这是我们第一次尝试使用 VMware 主机以 10Gb 的速度切换连接,因此我们没有其他可以比较的配置或可以连接的硬件。

我们还可以检查什么?

-- 编辑:我们原本想升级交换机固件,但我刚刚找到了一个相关链接 - 这似乎是 Cisco WS-X4908-10G-RJ45 模块和 Broadcom BCM57810 卡之间的一个已知问题,取决于 IOS 版本 -https://supportforums.cisco.com/discussion/11755141/4900m-ws-x4908-10g-rj45-port-startup-delay其中有很多相关讨论,并引出:

https://tools.cisco.com/bugsearch/bug/CSCug68370

WS-X4908-10G-RJ45 和 Broadcom 57810S 10Gb BASE-T 互操作性问题

CSCug68370

描述

症状:10Gbps BaseT 端口(在 WS-X4908-10G-RJ45 上)连接到带有 Broadcom 57810S DP 10Gb BASE-T 的 Dell 820 服务器。在重新加载交换机或移除/重新安装电缆时,端口会在很长时间后(最多 1 小时)启动或根本不启动。条件:1) 模块 WS-X4908-10G-RJ45 2) 版本 15.0(2)SG 至 15.0(2)SG7、15.1(2)SG 至 15.1(2)SG3 解决方法:降级至 12.2(54)SG

这并不是完全相同的服务器型号,也没有提到英特尔卡,但问题却非常匹配。

答案1

请更新您的 ESXi 主机。这是您在故障排除步骤中真正忽略的一件事。

您的 5.5 安装已近 1 年了!!

截至撰写本文时,当前版本ESXi 5.5 的2718055。当前 ESXi 6.0 内部版本号为2809209

戴尔、惠普,没关系……你仍然应该更新你的 ESXi 安装。很多人忽略这个,这是我所见环境中导致意外停机的第二大常见原因。

答案2

嗯,看起来这是思科的漏洞https://tools.cisco.com/bugsearch/bug/CSCug68370升级到“已知已修复”的 IOS 版本之一 (15.1(2) SG4) 似乎已经修复了该问题。

相关内容