间歇性不通信的子网

间歇性不通信的子网

上周,事实证明我是一个名副其实的卡桑德拉:我一直说,只有一个防火墙/路由器,没有备份或故障转移,这不是一个好主意。因此,我们的 Cisco PIX 出现故障,无法正确路由。当然,这里唯一一个可以随时待命的人就是我,虽然我对 Linux 相当熟悉,但我实际上是一名开发人员,而不是系统管理员(事实上,这在系统管理员感谢日打击了我,这有点讽刺)。

无论如何,这个周末我尝试了一个临时解决方案:我使用一台有足够网卡(两个内置网卡,四个卡上)的旧服务器作为网关和防火墙。由于 RAID 控制器出现一些问题,我只运行了两个路由器发行版,在 Untangle 和 Ebox 之间我决定选择后者。

现在一切都很好。我们这里的所有不同子网(都配有单独的交换机)都可以互相通信,甚至可以与互联网通信(Cisco 2800 路由器、T1 线路)。但有时(间隔 20-60 分钟),我会遇到完全路由故障。我们的主要办公室子网无法与我们的服务器子网通信,也无法连接到互联网。这并不是逐渐减速的结束,要么一切都运行正常,要么每次我都会完全失去通信约两分钟。

现在我有点不知该检查什么。至少在默认的 EBox 设置下,/var/log 中没有任何异常,而且它也没有很多内置的监控工具。所以我希望这里有人能给我一些关于要注意什么的提示。我确实将以太网电缆从办公室交换机换到了防火墙,但没有结果。我可能会换交换机,尽管在交换机内它似乎工作得很好。

编辑:我不确定这是否是问题的唯一原因,但在我注意到最后一次连接中断之前有几个 DHCP 条目后,我尝试重现该问题。但遗憾的是,每当我更新 DHCP 连接时,我都无法再访问其他子网。运行 ISC DHCPD 3.0.6。

答案1

您的 NIC 是否有可用的固件更新?如果是一台非常老旧的服务器,也许间歇性连接问题已在更新中得到解决?至少浏览一下固件发行说明,看看是否提到了这样的问题,也不会有什么坏处。

答案2

一定要检查 dmesg(命令的输出,而不仅仅是 /var/log/ 中的输出)我会检查 netstat -s 并将其与“sysctl -a”中的各种 ip 限制进行比较。特别是如果您在其上执行 NAT,您可能会遇到某种连接限制。

您可以尝试编写一个脚本,在中断期间从其中一个接口获取数据包转储。例如“while [1]; do ping -c 1 || tcpdump -s 0 -i eth0 -c 100; sleep 10; done”

答案3

20-60 秒听起来像生成树重新收敛。检查您的交换机日志(我假设这些是托管交换机)并找出导致收敛的拔出/重新插入的内容。如果是单根电缆连接到交换机的设备,请将该交换机端口设置为 portfast。或者您可以始终深入挖掘根本原因并找出导致端口打开和关闭的原因。:D 祝你好运!

答案4

还要检查dmesg其中是否有任何与网络相关的内容。由于各种与驱动程序/卡相关的问题,某些驱动程序偶尔会无响应。

相关内容