过去几天,我一直在追踪内部网络上少数最终用户的数据包丢失和网络稳定性问题……这些问题在上周浮出水面,但具体位置被雷击六周前。
我看到一组四台 Cisco 2960 和 77 米长线路另一端的几台 PC 和电话之间有 5-10% 的数据包丢失。PC 通过中继链路与电话并联运行(交换机端口配置 pastebin)我们发现客户端-服务器应用程序和 Microsoft Exchange 连接出现了掉线和中断的情况。
我尝试了远程的常规故障排除步骤,让当地技术人员在用户和生产活动休息期间执行以下操作:
- 更换墙上插孔和设备之间的电缆。
- 更换配线架和交换机端口之间的配线电缆。
- 尝试 2960 堆栈内的不同交换机端口。
- 使用已知良好的设备(新手机、不同的电脑)更换最终用户设备。
- 清除交换机端口接口计数器并密切监视递增错误。(Pastebin 输出
sh int
) - 仔细检查设备日志,Observium RRD 图表. 交换机端无链路启动/关闭问题。
- 更换最终用户侧的电源板。
test cable-diagnostics tdr int Gi4/0/9
使用(干净的)*从 Cisco 2960 运行测试电缆- 使用 Tripp-Lite 电缆测试仪测试电缆运行。(清洁)
- 对交换机堆栈成员运行诊断程序。(清洁)
最后,经过三次更换交换机端口才找到一个稳定的解决方案。唯一合理的结论是几个 Cisco 2960 交换机端口有问题或不稳定……没有坏,但行为也不一致。我不习惯看到单个端口以这种方式坏掉。
我还可以测试或检查什么来确定这些设备是否有问题?
验证这一点的最佳实践方法是什么?
单个端口出现问题是否比连续的端口组出现问题更常见?
顺便说一句 -show cable-diagnostics tdr int Gi4/0/14
非常酷......
Interface Speed Local pair Pair length Remote pair Pair status
--------- ----- ---------- ------------------ ----------- --------------------
Gi4/0/14 1000M Pair A 79 +/- 0 meters Pair B Normal
Pair B 75 +/- 0 meters Pair A Normal
Pair C 77 +/- 0 meters Pair D Normal
Pair D 79 +/- 0 meters Pair C Normal
答案1
虽然端口组通常共享一个 ASIC,但每个端口都必须有自己独立的 PHY。如果 PHY 受损,它很可能会出问题,而其邻居却不会出问题。
话虽如此,输出丢包是物理问题的一个奇怪症状 - 并非不可能,但并不常见。尽管是半双工链路,输出丢包通常与缓冲区耗尽有关,而不是物理问题。
您可以通过在线路的另一端设置数据包捕获来获取更多信息。 错误的 PHY 预计会在链路的一侧或两侧表现出一定数量的物理层错误(错误的 CRC、残缺/巨大等)。
总而言之,听起来你已经消除了足够多的损失,可能已经超出了收益递减点。如果你有合同,我建议你进行 RMA。
答案2
是的,单个端口可能会有问题,但我记得,您必须更换整个模块。(警告:我已经很久没有做过重要的思科工作了……)
我不确定这是否有帮助,但请查看国际体联,作者是 Etsy 的 Ops 工程师之一 Laurie Denness。