半随机连接丢失

半随机连接丢失

我遇到了令人困惑的网络问题。

先说背景,我在一个广播电台群工作——多个电台集中在一个地方——我们大量使用互联网来提供音频内容。我们将 3 条广播信号流传输到我们的在线信号源,将两条不同的信号推送到两个不同的发射塔站点,在那里音频通过无线方式广播,接收两条音频信号(有时是 3 条),并将一条信号发送回其源。所有这些流传输都是 24/7 全天候进行的,因此我们使用互联网的频率比普通人要高一些。我们永远不会停止广播——除非我们失去连接。

我们已经遭遇过一段时间的连接中断问题,这对于专业广播电台来说非常成问题。我们曾致电互联网服务提供商寻求答案,但每次尝试都无功而返。

起初,我以为问题只是数据包丢失。但后来我注意到连接丢失只是半随机的,而且有某种模式。每个电台都连接到一个静音传感器,当电台停止播放时,它会发出警报。这些警报可能意味着不同的事情;但对我们来说,这些警报只表示我们的互联网连接中断。为了解决这个问题,我使用了从两个从另一个位置接收音频的电台收集的信息。当我们停止从源接收音频时,就会发出警报。

首先,连接问题并非完全随机,因为大多数情况下,连接中断仅发生在新小时开始前 2 分钟,例如 12:58、4:58、1:58。我认为连接问题至少 90% 的时间发生在新小时开始前约 2 分钟。但我必须检查才能确定。对我来说,在小时开始前 2 分钟失去连接已经够奇怪了,但还有更多奇怪的事情。

连接中断并非每小时发生一次,甚至不是每天同一小时发生。连接中断的时间每天都不同。更奇怪的是,一个站点可能在一小时结束前 2 分钟遇到网络中断,而另一个站点则不会遇到中断。事实上,虽然每个站点都在新的一小时开始前 2 分钟失去连接,但我认为我从未见过两个站点同时中断的情况。因此,连接问题不仅发生在一天中的随机时间,而且每个站点也会在不同时间发生。唯一的共同点是连接中断发生在“一”小时结束前约 2 分钟。

我现在不在车站,所以我无法提供我们使用的具体设备,但设置相当简单。

我们有一个调制解调器,它连接到 Netgear Prosafe 24 端口切换器。然后,切换器将信号馈送到大楼内的各个房间。通常,每个房间都有一个小型 4-8 端口切换器(各种品牌)。然后,接收音频的音频处理设备连接到这些较小的切换器。

我完全不知所措了。我甚至无法说服康卡斯特这不是我们的错。现在,我正在考虑周末断开 24 端口交换机,只使用调制解调器背面的四个端口为重要/必要的设备供电(不过,我想我必须保持至少一个较小的交换机连接)。我想,如果问题持续存在,康卡斯特将不得不承担责任,因为没有任何干预技术。

任何帮助都将是莫大的祝福!为什么这些问题是半随机的?我从哪里开始寻找问题的根源?我对调制解调器有点怀疑;我认为问题开始于更换调制解调器时。但最终,我迷失了……迷失了……迷失了。

答案1

从隔离问题开始。我将从逻辑上将网络分解为多个部分,从外部开始,然后逐步进行文档/逻辑流程:

  • 互联网(8.8.8.8 是谷歌 DNS 服务器 - 从未宕机)
  • 从 ISP 连接设备一跳进入 ISP 网络
  • 你的调制解调器
  • 您的路由器/NAT 设备
  • 您的内部网络(192.168.xx、172.20.xx、10.xxx)

了解了这种分解,我们开始弄清楚我们拥有什么……反过来:从内到外。所以……

使用 ipconfig 命令

从内部设备 (PC) 根据该设备/PC 确定您的网络情况 开始 | 运行 | cmd Enter ipconfigEnter

这将为您提供您的 IP/子网/网关(如果您已禁用第一层故障排除,我们希望您没有使用无线)。

看起来应该是这样的:

Windows IP Configuration

Ethernet adapter Ethernet:

   Connection-specific DNS Suffix  . :
   Link-local IPv6 Address . . . . . : removed
   IPv4 Address. . . . . . . . . . . : 192.168.0.100
   Subnet Mask . . . . . . . . . . . : 255.255.255.0
   Default Gateway . . . . . . . . . : 192.168.0.1

确保你正在使用以太网/局域网连接设备,而不是其他设备。你所在的设备是 IPv4 地址:192.168.0.100 你的 NAT 设备/路由器是默认网关:192.168.0.1

使用 ping 命令

现在我们开始测试网络设备和 NAT/路由器设备之间的连接。在命令提示符中,我们将使用 ping 命令类型:

ping 192.168.0.100 -t 

或者

ping -t 192.168.0.100

基本上,你所做的就是向设备打招呼,然后该设备应该做出回应(直到我们进入互联网中心,事情可能会变得古怪)

好的回应:

Reply from 192.168.0.100: bytes=32 time<1ms TTL=64

错误回应:

Destination Host Unreachable

或者

Request timed out

或其他任何东西

此命令中的 -t 表示每 1 秒持续发送一个信息包,直到您指示它停止(Ctrl+c或使用 X 关闭窗口)。如果没有 -t,它只会发送 4 个数据包然后停止。

现在我们知道如何测试链接,我们将在网络中的每个链接/连接上使用该 ping 命令,看看哪里开始出现问题。

使用 tracert 命令

我们需要做的最后一件事是确保您和互联网之间的链接中没有其他异常(所谓的双 NAT 或两个 NAT 设备),并确定哪个设备距离您的 ISP 调制解调器只有一步之遥。

在命令提示符中输入:

tracert google.com<kbd>Enter</kbd>

你会得到类似这样的结果:

tracert google.com

Tracing route to google.com [74.125.21.138]
over a maximum of 30 hops:

1    <1 ms    <1 ms    <1 ms  router [192.168.0.1]
2     2 ms     1 ms     1 ms  device [10.1.10.1]
3     1 ms     1 ms     1 ms  blah.somename.whatever [123.123.123.123]
4     1 ms     1 ms     1 ms  124.124.124.124
5     *        *        *     Request timed out.

....还有更多,使用Ctrl+C停止

您关心的是每行 [] 之间的设备 IP 地址。注意:如果上面 ipconfig 测试中默认网关 IP 后面的行与 192.168.xx、172.20.xx、10.xxx 模式之一(私有不可路由子网)匹配,则您有双重 NAT,这可能会导致其他奇怪的问题,这里就不多说了。

最后需要的信息是您的网络的公共 IP。请访问 www.ipchicken.com。该数字就是您的公共 IP。

现在有了所有这些信息,我们要测试什么?

  1. 您自己(我通常会跳过这一步,除非下一步出现问题):192.168.0.100

  2. 您与 NAT 路由器的连接:192.168.0.1

  3. ipchicken号码:123.123.123.125

  4. ISP 调制解调器之外的第一跳(您的公共网关):123.123.123.123

  5. Google 的 DNS 服务器:8.8.8.8

因此,使用上面描述的 ping 测试,最多打开 5 个命令提示符窗口,使用 ping 测试每个跳转。让我再次输入这些跳转,看看每个设备之间可能存在什么问题

ping 192.168.0.100

- 如果这不是 100% 则表示您的 NIC 存在问题,或者 IP 堆栈损坏,需要重建

ping 192.168.0.1

- 如果这不是 100% 的话,则您的 PC 和交换机/路由器之间存在内部布线问题。开始跟踪和更换网络电缆/交换机/路由器。- 如果您在此处使用双 NAT,那么这将开始成为后续跳数的问题

ping 123.123.123.125

- 您的 ISP 调制解调器有问题,请他们测试 - 按照网络分段的说法,我们正在跨越 DMARC 或您本地公司网络(您的 IT 人员的问题)与 ISP 网络之间的分界。

ping 123.123.123.123

- 您的互联网连接有问题,ISP 需要登录并检查您的互联网连接。您的调制解调器与下一组 ISP 设备的连接性不佳,他们需要进行故障排除。- 有线 ISP 需要检查功率(通常为 +-10)和 SNR(信噪比),他们应该会告诉您他们所谓的可接受范围。如果不在范围内,则需要部署 ISP 技术。- DSL 您需要让他们检查噪声曲线,并且需要符合他们的规格。插入电话线的所有设备上的滤波器安装可能是一个问题。

ping 8.8.8.8

这在网络上的某个地方,ISP 会否认这是否是他们造成的,进一步查看 tracert 链可以帮助您开始看到问题开始发生的位置。如果您足够幸运地看到网络边界何时发生变化,这些名称将帮助您识别它。

欢迎加入 IT 行业:)

相关内容