由于端口失效,我们被迫更换数据中心的 Linksys/Cisco SR2016。
因此,我们查看了供应商的库存,他们唯一有趣的交换机是思科 SLM2024 智能交换机 - 所以我们买了它。
周六晚上,我去了数据中心,配置(设置 IP)并更换了交换机,从那时起我们就遇到了很多麻烦。大多数时候它工作正常,但有时会出现 1-20 分钟的故障,导致所有连接的服务器约 90% 的数据包丢失 - 而当它正常时,交换机工作完全正常。
我们那里有另一个交换机是 Linksys/Cisco SRW2016,如果我将所有电缆从 SLM2024 切换到这个 SRW2016,一切都会正常工作...我很确定没有环路。
上行电缆连接至 Catalyst 37xx 系列交换机...
我询问了电信公司的技术支持,他们以前是否遇到过类似的问题,但他们说没有——在将交换机退还给供应商之前,我想完全确定问题出在交换机上(因为我不完全确定我应该如何演示它)。
感谢您的意见!
答案1
如果您检查交换机上的生成树统计信息,应该会发现更多关于环路可能性的信息,请查找拓扑年龄。当发生环路时,拓扑会不断重建自身以补偿环路,因此较高的拓扑年龄(5 小时或更长)表示网络无环路。
我发现 Broadcomm pro 系列 NICS 和我的 Alcatel 交换机存在一些问题,这些问题听起来与您遇到的问题非常相似。这个问题时断时续,令人沮丧,直到我发现这实际上是交换机上的自动协商问题。
我通过禁用自动协商功能并对所有端口的速度和双工进行硬编码解决了这个问题。无论如何,这确实是服务器环境中的最佳实践,我只是懒得去处理它,所以决定让自动协商来处理它。
您可以做的另一件事是对该段运行数据包捕获,看看是否以某种方式获取重置帧或排序错误。
还要查看交换机上的流量控制设置。
答案2
您是否看到“交换机上的服务器之间”的数据包丢失或“交换机一侧的服务器与另一侧的外部服务器之间”的数据包丢失,但本地服务器之间没有问题”?
如果是后者,我会首先对上行链路两端的速度和双工进行硬配置。或者,至少确保两端都已固定(或自动协商)。
答案3
您所描述的情况听起来像是环路。我会先仔细检查一下电缆。除了环路或交换机本身的问题之外,您可能还可以查看哪些端口正在推送最多的流量,然后从那里开始追踪这些端口上的设备。您还可以尝试在出现数据包丢失的服务器之一上运行 Wireshark,以查看服务器在中断时在网络上看到的内容。