今天下午,网络没有任何变化,但交换机突然开始断开大量连接。这些连接会在几分钟后恢复,然后连接到交换机的另一个区域会断开连接。这是一个较旧的 4006 机箱交换机,它本身可能就是一个问题,但我想看看大家在寻找根本原因时还会寻找什么。
交换机通过以太网通道中的端口 1/1 和 1/2 连接到 VSS 核心 1/1/42 和 2/1/42。两端均已启动并正常工作,但交换机上的 CPU 将飙升至 99%,此时 CRC 错误开始影响其中一个接口上的 VSS 核心,端点开始掉线。我们在链路的每一侧都尝试了新的收发器和 SFP,结果相同。当我们尝试交换接入交换机上的光纤跳线时,CRC 错误并没有跟随光纤电缆,而是留在接入交换机上的端口 1/2 上。因此,监控模块上的端口 1/2 似乎是罪魁祸首。我们实际上尝试通过将光纤媒体转换器连接到 cat5 并使其成为端口通道的成员来创建以太网通道的新成员,但当我们将其插入时,您甚至无法到达交换机。我猜这是无关的,是媒体转换器的问题。
截至目前,我们只让它处于一条光缆连接到 VSS 核心一侧的状态(1/1 接入交换机 --> 2/1/42)。我已向 TAC 发送了一些信息,他们正在调查情况,但在此期间,是否有其他人有我可以运行的命令或我可以调查的一些故障排除信息?
答案1
这种程度的 CPU 峰值通常是某种生成树事件(读取:循环)或过多的流量袭击控制平面(最常见的是广播/多播风暴)。
4006 是否连接到任何其他下游交换机?4K 是否有可能意外地与另一台交换机交叉连接?
您是否绘制了这些交换机端口上的流量图?寻找流量水平大幅上升的现象。TAC 还将想弄清楚哪些进程正在消耗所有 CPU - 主要消耗者来自哪里show proc cpu
?您是否还看到 4K 上的 CPU 利用率很高?
同样,在您看到高 CPU 时,是否有异常的系统日志?这一切开始的时候,是否有任何变化(网络或主机)?在更简单的层面上,LACP 两侧的端口通道配置是什么样的?静态的?此区域的错误配置可能会导致一些问题行为。