我在这里贴出了我们的网络和设备图:https://i.stack.imgur.com/BWeMo.jpg
症状
- 3 周内,我们经历了两次间歇性网络故障。这些故障通常表现为网页超时,或者有时网站内容丢失(例如,样式表无法加载)。我们大楼的所有楼层都出现了这个问题。通常,强制刷新页面即可解决问题。
- 每次我尝试 Tracert 到网页时,它都会起作用,即使我每隔一两个或三个新 URL 就会收到页面加载错误。有时第二跳会失败,尽管这可能只是反映 ICMP 被该 IP 地址阻止。
- 一些用户遇到了网络性能缓慢的问题。
- 与此同时,整体网络用法看起来是正常的,远低于 10 MB 管道的限制。
- 在 speedtest.net 上进行速度测试得出了正常结果——略低于限制,这是预料之中的,因为我不是网络上的唯一用户。
- 有一次我外出时接到一个紧急电话,我建议我们的 IT 人员重启路由器或防火墙。他们重启了防火墙,这显然解决了几周的问题。
网络概述 参见此处的图表:https://i.stack.imgur.com/BWeMo.jpg。
我们有两个网络连接,一个主连接和一个故障转移连接。两个网络连接都直接插入防火墙。从防火墙到我们的主交换机,连接是铜缆,cat5e。端口配置为全双工 100 兆位。一些用户通过 IDF 直接插入此交换机,不同楼层的其他用户有单独的交换机,通过光纤连接到主交换机,然后从那里连接到 IDF。
在我能观察防火墙的窗口期间,故障转移连接似乎没有启用。它的工作方式是,当达到带宽阈值(10 MB)时,辅助连接启动。如果主连接完全断开,也会使用它。
已执行故障排除
- 连接到托管交换机,查看了铜缆链路端口的统计数据。一切似乎都很正常,但我不知道该 100% 地寻找什么。我查看了丢包和碰撞;在这个特定端口上,丢包和碰撞都很低。不确定在没有外部日志服务器的情况下数据收集的时间范围。
- 观察了一段时间防火墙的统计数据。观察了带宽利用率、错误报告。没有出现异常的连接洪流。
我的问题
我下一步应该调查什么,我应该采取什么步骤?猜猜我在这里遇到什么类型的问题——电缆、交换机、防火墙还是 ISP?有哪些工具可以帮助我测试这里涉及的各种组件?这个问题很难解决,因为它是间歇性的。我想我可以使用 SNMP 在更长的时间内从交换机和防火墙收集数据,但这对我来说是一个大项目,有很多东西需要学习。是否有任何配置更改值得进行?调整我可以轻松全局执行的超时?
任何帮助都将不胜感激。谢谢!
答案1
我不需要提供很多非常具体的指导,我相信其他人也会提供:
如果不知道被更改的特定组件是导致问题的原因,并且更改将解决问题,请不要进行任何更改。随意进行更改并希望某些事情会奏效,这类似于蒙着眼睛开车。您可能会解决问题,但这只是纯粹的运气,您永远不会知道真正的原因是什么。
您已经发现了一个问题:防火墙。如果上次重新启动防火墙解决了问题,那么我就会从防火墙开始。如果可能的话,查看防火墙上可用的计数器,例如 CPU 和内存使用情况、流量负载、丢包等。在防火墙的内部和外部放置一个网络嗅探器,并从客户端机器运行一些测试。您是否看到内部丢包?在外部?流量进入和离开防火墙时的时间是怎样的?是否有明显的延迟?
从那里我将转到交换机或路由器并执行相同的测试,具体取决于防火墙测试的结果。
答案2
隔离间歇性问题可能很麻烦。安装某种监控设备以频繁检查多个层的可用性和时间安排是一个好主意。
频繁运行 ICMP ping 以
- 由交换机分隔的内部机器
- 防火墙设备的内部接口
- 您的 ISP 的路由器(使用 traceroute 时沿途看到的组织外的第一个路由器)
- 您的 ISP 的一些基础设施服务器(例如名称服务器或邮件服务器)
- 具有高可用性的公共网站(例如 google.com)
还可以使用以下方式添加一些频繁的 HTTP 请求wget 具有递归检索功能和 --delete-after 语句 - 将日期时间戳、执行时间和错误写入日志。
结合这些信息应该可以帮助您包围问题区域。
答案3
您在 Firebox 上使用的固件版本是哪个?我最近发现有这个问题。我们升级到 V12,问题就解决了。