为什么服务器锁定会导致其他服务器断网？

Question 1

我几乎可以肯定您的问题不是由单一因素引起的，而是由多种因素共同引起的。这些单个因素是什么尚不确定，但最有可能的一个因素是网络接口或驱动程序，另一个因素是交换机本身。因此，很可能只有当该特定品牌的交换机与该特定品牌的网络接口结合使用时，问题才会重现。

您似乎认为问题的触发因素是某台服务器上发生的某件事，然后该服务器出现内核崩溃，其影响不知何故通过交换机传播。这听起来很有可能，但我认为触发因素在其他地方的可能性也差不多。

可能是交换机或网络接口上发生了某些事情，导致交换机上出现内核崩溃和链接问题。换句话说，即使内核没有出现内核崩溃，触发因素也很可能已经导致交换机上的连接中断。

有人会问，单个服务器上可能发生什么事情，会对其他服务器产生影响。这应该不可能发生，所以解释一定是系统某个地方存在缺陷。

如果只是崩溃的服务器和交换机之间的链路出现故障或变得不稳定，那么这应该不会影响到其他服务器的链路状态。如果确实如此，则应视为交换机存在缺陷。从流量方面来看，一旦崩溃的服务器失去连接，其他服务器的流量应该会略有减少，这无法解释为什么它们会遇到问题。

这使我相信开关上可能存在设计缺陷。

然而，当试图解释一台服务器上的问题如何导致交换机上的其他服务器出现问题时，链接问题并不是人们首先会想到的解释。广播风暴可能是一个更明显的解释。但是，服务器出现内核崩溃和广播风暴之间是否存在联系？

多播和发往未知 MAC 地址的数据包或多或少被视为与广播相同，因此此类数据包的风暴也算在内。崩溃的服务器会不会试图通过网络向交换机无法识别的 MAC 地址发送崩溃转储？

如果这是触发因素，那么其他服务器肯定出了问题。因为数据包风暴不应该导致网络接口出现这种错误。Reset adapter unexpectedly听起来不像是数据包风暴（数据包风暴只会导致性能下降，但不会导致任何错误），也不像是链接问题（链接问题应该会导致有关链接中断的消息，但不会出现您看到的错误）。

因此，网络接口硬件或驱动程序很可能存在一些缺陷，而这是由交换机触发的。

可以提供额外线索的一些建议：

您能否将其他设备连接到交换机并查看问题出现时交换机上的流量（我预测它要么安静下来要么看到洪水）。
是否可以使用不同的品牌和不同的驱动程序替换其中一台服务器上的网络接口，看看结果有何不同？
是否可以用其他品牌的交换机替换其中一个？我希望更换交换机可以确保问题不再影响多台服务器。更有趣的是，它是否也能阻止内核崩溃的发生。

Answer

我几乎可以肯定您的问题不是由单一因素引起的，而是由多种因素共同引起的。这些单个因素是什么尚不确定，但最有可能的一个因素是网络接口或驱动程序，另一个因素是交换机本身。因此，很可能只有当该特定品牌的交换机与该特定品牌的网络接口结合使用时，问题才会重现。