我们遇到了一个奇怪的问题,似乎与路由或 DNS 有关。
我们采用 Unifi 设备 (UDMP) 的“中心辐射型”拓扑。每个站点通过 IPSEC 隧道连接到运行 VyOS 的 AWS EC2 实例,以处理站点与 AWS 中其他基础设施之间的核心路由。
过去,当我们拥有更多具有一些内部部署服务器的混合拓扑时,每个站点都有另一个连接到总部的 IPSEC 隧道,这是旧 VoIP 服务器所必需的,并且我们有几个内部部署 DNS 服务器。
此后,我们将所有基础设施都转移到了 AWS,这些通往总部的第二条 IPSEC 隧道不再需要。我已关闭了该站点与总部连接的大部分隧道,其他站点一切正常。只剩下一个站点(site3),每当我关闭其隧道时,它都会给我带来问题。
问题:每当我关闭“站点 3”和总部之间的 IPSEC 隧道时,一切可能都会正常运转 10 分钟,然后人们开始抱怨他们“没有互联网”。我确定他们可能仍在使用旧的本地 DNS 服务器,因此我将他们的主 DNS 服务器切换到 AWS 中的 DNS 服务器,并使用 Google DNS 作为备份。很好,没有问题,一切正常。我再次关闭隧道,开始接到电话。这次用户说他们丢失了映射驱动器(AWS 中的文件服务器)。
奇怪的是,当他们到总部的 IPSEC 隧道启动时,一切都运行良好(站点 3 与 aws 的连接)。当我把它关掉时,一切可能工作 10 分钟左右,然后就停止工作了。您可能会认为他们的站点正在通过隧道路由到总部,然后再路由到 AWS,但事实并非如此。来自 site3 的客户端计算机的跟踪路由显示连接到 EC2 实例有 3 个跳转:从他们的 WAN 出发,到 VyOS IP,到服务器 IP。查看 site3 的客户端计算机上的路由表,显示没有 AWS 网络的条目,因此流量被发送到 0.0.0.0,即它们的 UDMP 网关。查看 site3 UDMP 上的路由表,显示 aws VPC 网络有 1 个条目,172.30.0.0/16,下一跳是 VyOS 路由器。
1 个有趣的细节是,即使所有内容都设置为允许 ICMP/响应 ping,UDMP 和 vyos 路由器都无法互相 ping 或 ec2 实例……但是 site3 网络上的客户端可以 ping 所有内容。
我检查了 EC2 实例的安全规则,其中包含所有必需的网络和 WAN IP。
当我注意到 site3 udmp 配置了静态 WAN IP,但还设置了“路由器”的配置设置和其他 IP 地址时,我完全没有了主意。以下是详细信息:
WAN IP=108.x.69.250
subnet mask: 255.255.255.248
Router: 108.x.69.249
Additional IP addresses: 108.x.69.251/32, 108.x.69.252/32, 108.x.69.253/32, 108.x.69.254/32, 108.x.69.255/32
查看 AWS/EC2 的安全规则后发现,虽然允许 108.x.69.250/32,但子网中的其他 IP 均不包含在内(下一跳 ISP 路由器或其他 IPS)。我将 AWS 安全允许的条目更改为 108.x.69.248/29,但这只是一种绝望的尝试。我不太确定这会是解决方案。
有人有什么想法或主意吗?我下班后才能再次测试,但我想我可能会得到别人对这种情况的看法。有人有使用静态 WAN 的 UDMP 的经验,也有为路由器和附加 IP 配置这些附加字段的经验吗?
答案1
我相信将 WAN /29 网络上的附加 IP 添加到 AWS 访问组可以解决我的问题。