对 pfSense + Ubiquiti UniFi 上的数据包丢失进行故障排除(也许是 Wireshark?)

对 pfSense + Ubiquiti UniFi 上的数据包丢失进行故障排除(也许是 Wireshark?)

我正在处理教堂中一个小型网络中的恼人情况,我是该网络的主要志愿 IT 管理员,大约有 20 台电脑。

我们在查塔努加,千兆互联网的发源地,所以我们有足够的带宽(100mb 连接)。

根据 pfSense 仪表板,pfSense 硬件如下:

Intel(R) Atom(TM) CPU D525 @ 1.80GHz
4 CPUs

两个 NIC(WAN + LAN)都是千兆端口。这个东西有 2GB RAM。

我们有一个计算机实验室/课后辅导计划,所以我使用 pfSense 以及 Squid 和 Squidguard 进行内容过滤。

一个半星期前,在我不知情的情况下,另一个 IT 人员进来重新整理了一堆 IT 设备,并在没有先与我交谈的情况下将一些东西安装到网络机柜的墙上。

恰巧,就在那个周末,一场大风暴袭击了小镇。

从那时起,互联网就一直不稳定。一天中多次,互联网开始变慢,并且一直变慢直到无法使用,然后大多数(如果不是全部)人都报告说它完全崩溃了,无法访问外部世界。

由于我很少在现场,因此当问题真正发生时,我很难真正解决问题。解决方案(我不太喜欢,但它能完成工作)是从网络柜中的所有设备(pfSense + 1 个 Ubiquiti AP、Cisco SG-100 和 ISP 的设备)中拔下电源,然后重新插入所有设备,然后一切都会全速恢复。

然而,有时我能够到现场后,我注意到每当互联网 (10.0.0.1) 断线时,我就无法 ping 通网关 (pfSense),而我是能够 ping 其他内部设备,例如位于 10.0.0.2 的打印机。

查看 pfSense 仪表板,我从未见过流量饱和。我们的连接为 100mb,因此充足带宽。现场没有服务器,也没有高带宽应用程序。

对我来说,这些症状听起来就像是生成树问题(我们没有任何智能交换机,尽管我在网络核心有一个 Cisco SG-100。

我检查了我们所有的交换机(整个大楼里只有 3 个交换机 - 没有一个有超过 8 个端口),并手动追踪所有电缆以确保没有物理环路,并确保交换机没有多次插入彼此。

于是我将 pfSense 硬件从 2.1.3 升级到 2.1.5,并升级了我们所有 4 个 Ubiquiti UniFi 无线 AP 上的固件。我也没有持续运行的无线控制器,因此我将软件安装在一台几乎始终处于开启状态的员工电脑上,以便控制器始终存在。

(如果您对 Ubiquiti UniFi 有所了解,那么您不必让控制器持续运行,但我认为这不会有什么坏处)

今天早些时候,当互联网速度很慢时,我从自己的 PC (Ubuntu) 运行了大量 ping,发现有大量数据包丢失。我注意到,当我对某个外部 IP 地址运行 ping 时,一开始会有很多数据包丢失,但我让 ping 运行的时间越长,ping 响应就会越快(并且越一致/可靠)。

检查防火墙上的代理过滤器配置后,我注意到在代理服务器部分的缓存管理中,内存缓存大小为 32mb,而 RAM 中的最大对象大小设置为 64mb。意识到这可能会导致问题,我将内存缓存大小增加到 256mb,并完全关闭了硬盘缓存。

我希望这会有所帮助,但我们会在接下来的 24-48 小时左右关注网络。

(更新:这似乎没有帮助。我离开 5 分钟后,我接到电话说互联网断了。所以我回来用临时的 Cisco Linksys 路由器换掉了 pfSense 设备,我们会看看会发生什么)。

在解决这个持续存在的问题时,还有其他建议或我应该考虑的事情吗?我确实有一个想法,那就是那个未经我同意就移动所有网络设备的人可能夹住了电缆。我更换了从 pfSense 设备到 LAN 的电缆,但这没有帮助。我的另一个想法是,可能由于暴风雨而出现了某种电涌,但网络柜中的所有东西都在 APC 电涌保护器后面。无论如何,问题就是从那时开始的。

我有 WireShark,但我不太清楚在数据包捕获中应该寻找什么。也许一些关于如何处理数据包捕获的提示也会有所帮助。

相关内容