存储网络停止传输流量

存储网络停止传输流量

我有一个麻烦的问题。

我有一个 10Gb 存储网络,服务于 VMWare vSphere 5.1 环境。

  • 贮存:带有 Chelseio T320 10Gb Nic 的 TrueNAS(NFS)
  • 贮存:戴尔 PowerVault MD3600i(iSCSI)
  • 网络:XSM7224S 10gb 交换机
  • VMWare 硬件:三台 Supermicro 服务器,每台配备双十六进制处理器和 192Gb RAM。
  • VMWare 10gb Nics:Chelsio T420-LL-CR

会发生什么: 每周一次到每月一次,存储网络设备会停止传输流量,然后一切都会陷入混乱。发生这种情况时,存储网络上的所有设备都无法相互 ping 通。就好像交换机关闭了所有端口或停止了工作,但重新启动交换机却没有任何作用。Linux 和 vmware 系统内的网络状态报告状态为“启动”,但无论如何,重新启动网络接口也没有任何作用。我必须重新启动所有相关服务器,包括 TrueNAS,但不包括 Dell Powervault,然后它才能重新上线并开始流动网络。

我做了什么:这种情况已经持续了一段时间,在此期间,我更换了所有 Nics(原先是 320,升级到 420),更换了交换机(原先是戴尔 PC 8100),更换了电缆,并添加了戴尔 PowerVault MD3600i。TrueNAS 曾充当主存储,但现在该工作属于 PowerVault,而 TrueNAS 则充当系统备份的存储。没有日志提示发生了什么。交换机没有任何冲突或数据包传输错误。但无论如何,问题仍然存在。

我还没做的事:今晚,我将用备用网卡替换 TrueNAS 上的 chelsio T320 NIC。我还将重新安装我的 Dell PowerConnect 8100 10Gb 交换机,并将 TrueNAS 网络隔离到该交换机上,因为目前 TrueNAS 是这个问题中唯一没有改变的常数。

我遗漏了什么吗?:我对此束手无策,想把这个问题抛给社区,看看我是否想得太多了,或者是否有一些想法可以帮助确定问题。我为此失眠了好久,头发也掉了不少。我见过坏网卡导致网络瘫痪,但这几乎总是可以通过查看交换机端口统计信息上的冲突来轻松发现。

谢谢!Brad

答案1

我在 1G 网络上也遇到过类似的问题,我们追踪到流量控制缺陷使用 Broadcom 芯片组。在高 PPS 期间,网卡会向交换机发送一个暂停帧。在 PC 62XX 和其他基于 Broadcom 的交换机中,默认操作是将暂停从所有端口传播到最初接收暂停帧的端口。这可能会导致交换机完全关闭,最坏的情况下,您会看到流量被阻止。

我们最终关闭了所有博通交换机上的流量控制,并使用“无流量控制”,从那时起,我们就没有看到任何因高 PPS 而导致的网络或部分网络范围的中断。

相关内容