场景:小型企业,拥有大约 40 名用户,采用 Watchguard XTM 3.0 防火墙和 20Mb 专线互联网连接。
问题:用户偶尔会遇到网络连接中断的情况。在 VOIP 通话(例如 Skype)中,这种情况尤其令人烦恼,因为连接会中断。当出现中断时,浏览互联网网站也会受到影响。虽然大多数时候一切都很好,但中断很常见,足以成为业务问题。
评论:我们认为问题出在我们这边,因为从其他地方(例如家庭宽带)拨打相同的 Skype 接收者似乎工作正常。从 ADSL 升级到租用线路后,问题仍然存在。但是,我们想确切地知道问题是在 LAN 还是 WAN 上。交换机目前是非托管的,但很快就会被新的托管交换机取代。据我们所知,LAN 上任何地方的用户都会出现断线现象。
有没有什么办法可以追踪断线的原因?我想知道是否有办法测试 XTM 内的连接连续性?您可以轻松看到没有长的但是我们如何测试短时间的掉线(但时间要足够长以中断 Skype 通话)呢?
更可能的原因是局域网上出现了问题——我们如何缩小这个范围而不让人们长时间断网?
蒂姆
答案1
找到此类问题的根源可能非常令人沮丧,尤其是在这种情况很少发生的情况下。不过,这是我处理间歇性网络问题的方法
- 尽你所能地绘制网络图
- 识别潜在问题的系统
- 创建一个(最好是自动化的)监控解决方案来确定问题所在
- 处理问题。
步骤 1 和 2 应该相对简单。在白板上绘制完整的路径和所涉及的系统会很有帮助。对于步骤 3,我倾向于使用 Nagios 或其他长期监控解决方案。Nagios 有许多可能有用的插件,您可以将其配置为从您的 NOC 以非常高的分辨率监控系统的许多属性。监控有两个目的。一个是收集信息以供以后调试,但它也会通知您有关问题的信息,让您更容易将它们与来源关联起来。当遇到间歇性的网络连接问题时,我会确保为路径上的所有系统配置路由监控和连接测试。
一旦我找到问题的解决方案,我就会部署它,并保持监控,直到我确信问题已得到解决。
顺便说一句,非托管设备在生产网络中是没有位置的,您现在可能已经明白了。在无法访问交换机上的 SNMP 的情况下调试 LAN 中的问题是一件非常令人头疼的事情。如果您运气不好,网络中某个地方的两个网络端口之间的一个补丁就足以让您的网络崩溃……
答案2
我想您可以对交换机进行简单的 ping 测试,并记录/跟踪发生掉线的位置和时间(以及在哪些交换机上发生掉线),然后将这些数据与 ping 测试中的延迟和掉线 ping 关联起来。当然,这不会特别准确,但这是对非托管交换机最好的选择。这也应该足以做出合理的评估,确定这是任何特定交换机的限制,还是更大的问题,例如网络饱和或 LAN 中某个点的带宽不足。
最终,解决方案,也是真正缩小范围的唯一方法是获取管理型交换机,以便您可以获得网络使用情况的详细图(这很可能是网络饱和的问题,或者带宽不足导致数据包在某处丢失),并设置 QoS。 如果你使用 VOIP,你需要 QoS。
答案3
如果你有东西打破如果 Skype 通话仅发生短暂的实际连接中断(<15 秒),则这可能是某种主动破坏连接的原因。
为了进行诊断,您可以采取分析方法,在受影响的站点之一上运行完整的数据包跟踪(使用 Wireshark 或网络监视器),直到问题发生,并查看跟踪以寻找 Skype 连接的 UDP 数据包交换中断的原因的可能线索(因为 Skype 呼叫可能是呼叫时唯一大量使用的基于 UDP 的协议,您应该能够轻松识别流)。您可能会从路径中的其中一个路由器看到类似 ICMP 目标不可达的数据包,这会提示您进一步查看的位置,或者只是没有任何请求的响应数据包,表明这是客户端和网络其余部分之间的连接问题。
您可能还想浏览 Watchguard 的日志,看看是否有任何条目与报告的连接断开相关。客户端的日志也是如此,看看它是否可能丢失了连接和/或重新配置了 IP 接口。
另外,考虑可能的故障点,并尝试从这些点后面记录连接数据,例如
- 持续连接
ping
到内部服务器,检查是否与交换基础设施有关 - 对 Watchguard 后面网络上的第一个跳点进行连续 ping,以查看它是否与 Watchguard 或线路有关
- 对知名且可用性良好的互联网主机(如 8.8.8.8)进行持续 ping 操作,以检查互联网的总体连通性