终于修好了

终于修好了

我们最近安装了 Star2Star 的新 VoIP 电话系统,使用了全新的 Yealink T46S 电话,从那时起,我就一直在寻找网络问题。从安装当天开始,我们的一个工作站无法访问一些(但不是所有的) 我们在计算机上映射的共享。查看有问题的共享,它们都位于同一子网 ( 192.X.X.X) 上,而这恰好是工作站所在的子网。正常工作的共享位于不同的子网 ( 172.X.X.X)。PC 通过手机的千兆连接连接到网络。

后者(正常工作)共享位于第三方托管的服务器上,而前者(出现故障)共享则物理上位于用于文档存储等的内部资源上。出现“故障”的设备包括几个虚拟服务器和一个 NAS。具体问题是,无论我尝试按名称还是按 IP 地址,用户都无法通过文件资源管理器浏览这些资源。有时我可以访问服务器的“根”(名称或 IP),但只要我尝试访问任何共享,文件资源管理器似乎就会死机。用户可以按名称或 IP 访问设备,PING而不会出现问题,因此我知道网络本身总体上“正常工作”。如果我绕过电话,问题似乎会消失,但只要我重新接通电话,问题就会再次出现。

我尝试了各种故障排除步骤来修复它,包括(无特定顺序):

  • 断开/重新连接映射驱动器(net use X: \\SERVER\Share
  • 重置 winsock (netsh winsock reset
  • 系统文件检查(sfc /scannow
  • 清除 DNS 缓存(ipconfig /flushdns
  • 清除 arp 缓存(arp -d
  • 检查 Windows 防火墙 (本地网络已禁用
  • 验证 SMB 是否已启用(我们使用 SMBv1 将文件传送到网络扫描仪/打印机设备到每个用户的本地计算机

SMB 设置

还有一些其他的事情,但我现在记不清了。

接下来,为了排除手机本身的原因,我们引入了一个小型 PoE 交换机,并将其置于用户的以太网插座和手机/PC 之间(一个端口连接到插孔,一个端口连接到电话,一个端口连接到工作站)。不幸的是,问题仍然存在 - 无法浏览本地 LAN 服务器上的共享,而远程服务器和所有 Internet 服务似乎都运行良好。当我将 PoE 交换机留在那里但断开电话连接时,这种情况仍然存在。似乎任何事物PC 和网络之间的连接似乎导致了这个问题,但是仅有的对于同一子网上的计算机。

我们尝试了各种物理连接配置,试图进一步缩小问题范围,其中包括:

  • 将以太网插孔重新连接到交换机上的其他端口(手机仍与 PC 保持一致) -问题仍然存在
  • 将以太网连接到另一个配线架/交换机端口(电话仍与 PC 保持在线*) -问题仍然存在
  • 将同一部手机连接到另一台电脑(手机与“新”PC 齐头并进) -没有问题

最后,我尝试禁用板载 NIC(Realtek PCIe GBE 系列控制器),并插入一个我为了测试而闲置的小型 Anker USB NIC。一切开始正常工作(天使合唱团开始歌唱)。我订购并安装了一个新的英特尔 PCIe 千兆 CT 台式机适配器来替换 Realtek,一切似乎都很好……至少对于用户。


然而第二天,第二台电脑开始出现精确的相同的行为 - 无法访问同一子网内服务器上的共享,但其他类型的网络浏览都顺利进行。我继续在那台计算机上安装了另一个新的英特尔网卡(相同型号),似乎解决了这个问题,但只是暂时的。今天早上我进来,让用户尝试访问问题资源,但它只是“挂起”在那里,最终给出无法访问映射驱动器/共享的错误。有时它甚至会锁定 Windows 资源管理器,以至于我必须完全重新启动计算机才能让一切恢复到相对稳定和可行的环境。

我进行了很多与以前相同的故障排除,结果也基本相同(见上文),但我仍然无法让 PC 正常浏览网络,即使在新的 NIC 上也是如此。它甚至导致我们一些依赖浏览来保存文档等的内部应用程序出现问题。这些应用程序本身似乎大部分都运行良好。

在安装这个新电话系统之前,我们有一个使用 Iwatsu VoIP 电话的不同但相似的系统。这些设备具有 10/100 直通,而不是这些新 Yealink 电话的千兆直通,但基本“想法”是相同的。虽然我很想把所有责任都归咎于新电话系统,但事实是(至少到目前为止)这是网络上仅有的两台表现出这种行为的计算机。我自己的电脑没有这些问题,但这可能与我在办公室有一个“自定义”设置有关,其中电话和 PC 通过不同的以太网连接返回到交换机。但是,我们办公室里还有另外七台电脑,自安装新电话系统以来尚未报告任何新/类似问题。

此时想到的第二台计算机和第一台计算机之间的唯一区别是,第二台电脑的 IP 地址是通过 DHCP 保留分配的(用于防火墙中的 CFS 策略),而第一台电脑的 IP 只是选择一个“随机” DHCP 地址。我确实必须在 DHCP 服务器的保留中做一些工作,以便第二台 PC 根据新 NIC 的新 MAC 地址选择正确的 IP 地址,但该 PC 目前正在选择正确的 IP 地址。

因为现在是工作日的中午,我还没有尝试在有问题的电脑上卸载/重新安装“Microsoft 网络客户端”,但这是我的下一步。无论如何,我真的需要一些帮助,或者有其他建议可以查看的地方。


附加详细信息(环境)

  • 电话系统位于单独的 VLAN ( 10.X.X.X) 上。
  • 电话本身从该 VLAN 获取 IP 地址,而工作站从我们的“主”子网 ( 192.X.X.X) 获取适当的 IP 地址。
  • 我们在网络中配置了其他 VLAN,它们似乎运行正常。
  • 我们网络边缘的 Sonicwall 防火墙设备。
  • 2 台 UniFi 24 端口管理型 PoE 交换机和 2 台 Cisco 24 端口 SGE 管理型交换机构成了网络的“主干”。
  • Star2Star 服务设备(StarBox)实际上位于我们的防火墙之外,具有自己的静态 IP 地址,但以桥接模式运行,因此防火墙仍然可以公开访问。
  • 外部可访问的内部资源(Web/FTP 服务器)似乎不受影响。

如果我可以提供任何可能有用的其他信息,请告诉我。


更新

由于这是 Windows 10,我无法简单地卸载“Microsoft 网络客户端“适配器的功能(谢谢,微软),但我确实继续禁用(重启)然后重新启用(重启) 看看是否与任何事情有关......仍然没有运气。

同样,如果我移除工作站和墙上插孔之间的所有东西,它就可以工作。任何事物介于 -除了旧手机- 似乎是导致问题的原因。此时,我真的开始怀疑我们的网络是否存在一个潜在的问题,而安装这个新电话系统只是暴露了这个问题。

第一天,这台(第二台)工作站上一切正常,问题直到第二天才出现,这才是真正让我困惑的。此外,更换第一台 PC 上的 NIC做过解决该工作站的问题,但没有解决第二台电脑的问题。


更多故障排除

为了查找网络问题,我检查了此工作站使用哪个 DC 进行身份验证。然后我登录到该 DC,发现硬盘空间严重不足(可用空间不足 1GB)。由于该 DC 是 VM,并且认为可用空间不足可能会导致“意外”行为,因此我扩展了驱动器,为其提供了额外的 25GB 空间。这并没有解决问题

然后我发现了一件我以前没见过/没注意到的事情:当我把手机接入网络并检查网络属性时,连接显示“ad.domain.com (2) -(未经认证)“。我尝试运行 PowerShell 命令来重置工作站的安全通道,结果如下:

> Reset-ComputerMachinePassword -Server 'SERVER.ad.domain.com' -Credential [email protected]

Reset-ComputerMachinePassword : Cannot reset the secure channel password for the computer account in the domain.
Operation failed with the following exception: The server is not operational.
.
At line:1 char:1
+ Reset-ComputerMachinePassword -Server 'SERVER.ad.domain.com' -Credent ...
+ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : OperationStopped: (WORKSTATION:String) [Reset-ComputerMachinePassword], InvalidOperationException
    + FullyQualifiedErrorId : FailToResetPasswordOnDomain,Microsoft.PowerShell.Commands.ResetComputerMachinePasswordCommand



> Test-ComputerSecureChanel -Server 'SERVER.ad.domain.com' -repair

Test-ComputerSecureChanel : Cannot reset the secure channel password for the computer account in the domain.
Operation failed with the following exception: The server is not operational.
.
At line:1 char:1
+ Test-ComputerSecureChanel -Server 'SERVER.ad.domain.com' -repair
+ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
    + CategoryInfo          : OperationStopped: (WORKSTATION:String) [Test-ComputerSecureChanel], InvalidOperationException
    + FullyQualifiedErrorId : FailToResetPasswordOnDomain,Microsoft.PowerShell.Commands.TestComputerSecureChanelCommand

接下来,我将计算机从域中分离出来,并从 AD 中删除了它的计算机帐户(已确认已从所有 DC 中删除),然后将工作站重新加入域。这并没有解决问题

我已验证工作站使用的 DNS 服务器是否指向 DC,但我手动设置了 NIC 上的所有 IP 地址信息只是为了进行测试。还是没用

一时兴起,我通过从自己的工作站共享一个文件夹进行了测试,并且能够通过文件资源管理器浏览从“问题”机器顺利访问该文件夹(\\MYWORKSTATION\TestShare)。

接下来,为了看看会发生什么,我尝试将计算机的 IP 地址静态分配给与其通常的 DHCP 保留地址完全不同的地址。突然,一切都开始按计划进行

我们将其放在 DHCP 保留中的原因是为了内容过滤规则,因此我进入 DHCP 服务器并将工作站的保留更改为“新”IP 地址(我静态分配的地址),将工作站重置为 DHCP,然后重新启动。一切仍在运转

问题似乎可能是某种 IP 地址“冲突”,但即使这样也说不通。我的意思是,这在某种程度上是有道理的,因为第一台出现这种行为的计算机在我更换 NIC 时被“修复”,可能是因为该工作站没有 DHCP 预留,而新的 NIC/MAC 地址迫使计算机选择一个新地址。但是,网络上没有任何其他具有这两个 IP 地址的设备会发生冲突。此外,网络上的其他七台计算机都没有出现这种行为。我真的很想知道问题的实际原因是什么,但如果我可以尝试更改“问题”用户的 IP 地址来解决问题,我会选择这样做。

答案1

终于修好了

经过大量额外的故障排除后(请参阅 OP 中的更新,了解已采取的其他故障排除步骤),我终于能够相当“简单”地解决这个问题 -我更改了“问题”工作站的 IP 地址如上所述,此工作站有一个 DHCP 保留用于内容过滤规则,但由于其他方法都不起作用,我决定尝试一个完全不同的 IP,万一我用我知道可用的静态 IP 地址配置了 NIC,包括 DNS 服务器等,并且一切都开始按计划进行

我回到 DHCP 服务器,更新 MAC 地址的 DHCP 保留以使用我刚刚分配的新 IP,将工作站的 NIC 重新设置为 DHCP,然后重新启动并重试。再一次,一切仍然正常运转。我还更新了防火墙中的 CFS 规则并测试了这些规则以确保它们得到正确应用,此时问题似乎已完全消除。

该问题表现为 IP 地址冲突,但我找不到任何迹象表明其他设备正在使用同一地址。原始 IP 在 DHCP 中仅为一个工作站保留(不过,当我更换网卡时,我必须更新预留才能使用新的 MAC 地址),所以我真的不确定问题到底是什么。PING在所有这些更改之后,我尝试使用“旧”IP 地址,但结果却只是“Destination host unreachable.“在回复中。也许是某种路由或缓存问题,被包含以下内容所打断任何计算机和网络其余部分之间的设备。

我真的希望我能理解问题的实际根本原因,但如果将来出现此问题,我可以通过简单地交换工作站的 IP 地址来解决它,至少我不会花费数小时或数天的时间执行一堆无用的步骤。当然,如果有人能解释这种奇怪的行为,我很乐意听听。

相关内容