大家好,Server Fault 的居民们
我有一个恼人的问题,局域网中有大约 100 台计算机、2 台 Windows 域服务器和 12 部 VoIP 电话。自从大约一年前安装这些设备以来,大约每周我们都会注意到一部 VoIP 电话会自行重置 - 有时是在通话过程中。同时,计算机上经常出现暂时断开连接的迹象:访问网络共享时资源管理器冻结,由于与数据库服务器的连接丢失导致管理软件出现错误。
我一直在使用 Wireshark 监控 VoIP PBX 与网络其余部分之间的连接。当我们记录电话重启时,Wireshark 会拾取一大堆重新传输的 TCP 数据包。Wireshark 日志显示每天大约有 2 个重新传输集群,数量从 5 个数据包到数百个数据包不等。每个集群中的数据包主要在 PBX 和一组 VoIP 电话之间,但并不总是同一组。通常同时进行的重新传输是针对连接到同一交换机的电话,但有时重新传输会同时发生在网络两端的电话上。在传递 TCP 流量时通常会有一些同时发生的重新传输,例如在客户端计算机和文件服务器之间。
重传和电话重置的峰值与网络负载过重的时间没有很好的相关性。它们似乎在白天出现得稍微多一些,但大多数是在晚上,而此时流量应该会减少。它们在深夜出现的频率相当高,因为此时大多数计算机都已关闭,流量应该最低。
您有什么想法可以帮助诊断此类问题的原因吗?有一件事我还没有尝试过,但应该尝试一下,那就是更新所有交换机的固件。
答案1
TCP 重传通常是由于网络拥塞造成的。在问题发生时,请查找大量广播数据包。如果捕获的广播流量百分比高于捕获的总流量的 3%,则肯定存在拥塞。查找网络上的物理层 (ARP) 和网络层 (名称解析) 广播。如果发现大量广播流量,则可以从捕获数据中追踪到其来源。
答案2
收集交换机的流量统计数据可能会显示,有些时间段您的交换机已达到或接近满负荷运行。如果响应未在初始超时(通常为 3 秒)内返回,则会导致重试。这会暂时增加拥塞,直到拥塞缓解机制启动。
寻找使用流媒体的人,因为它可以快速消耗带宽。
您可以通过流量整形来缓解手机的问题。这只会将问题转移到其他用户身上。
答案3
在我看来,这听起来像是生成树环路或广播风暴,尤其是当重新传输和问题都集中到同一台交换机(不同)时。当它发生时,您的 L2 设备上的端口状态是什么?可能是坏的交换机或坏的根桥优先级?有趣的问题。
答案4
希望您的电话与其他计算机位于不同的子网和 VLAN 上?