以太网干扰

Question 1

以下列出可能导致您所看到的行为的一些因素：

一个开关循环。
恶意软件。
NIC 损坏或有缺陷。
存在缺陷/行为异常的 NIC 驱动程序。
广播风暴（通常与交换机环路有关）。

为了解决您的编辑：广播风暴或交换机泛洪（这是两个不同的东西）可能会导致此问题。请注意，这里有两个广播地址：FF-FF-FF-FF-FF-FF（255.255.255.255），即第 2 层广播地址，以及第 3 层子网广播地址（例如，192.168.1.255 是 192.168.1.0/24 子网的第 3 层子网广播地址）。第 2 层或第 3 层的广播风暴都可能导致此问题。

Answer

以下列出可能导致您所看到的行为的一些因素：

一个开关循环。
恶意软件。
NIC 损坏或有缺陷。
存在缺陷/行为异常的 NIC 驱动程序。
广播风暴（通常与交换机环路有关）。

为了解决您的编辑：广播风暴或交换机泛洪（这是两个不同的东西）可能会导致此问题。请注意，这里有两个广播地址：FF-FF-FF-FF-FF-FF（255.255.255.255），即第 2 层广播地址，以及第 3 层子网广播地址（例如，192.168.1.255 是 192.168.1.0/24 子网的第 3 层子网广播地址）。第 2 层或第 3 层的广播风暴都可能导致此问题。

Question 2

交换机在其固件中运行代码。有时该代码有缺陷，意外输入可能会导致交换机崩溃。因此，行为不当的主机可能会导致交换机崩溃。这不太可能，但确实会发生。

几年前（可能是 2003 年？）我有非托管的 Netgear 交换机，每周会宕机 2-4 次，就像它们正在经历广播风暴一样 - 就像您上面的描述一样。重新启动堆栈是唯一的解决办法。Netgear 支持人员表示，他们在这些交换机上运行 IP 和 IPX 时存在已知问题，而且由于它们是非托管的，因此没有什么可排除故障的。它们已经 EoL 并且没有进一步的固件升级，因此他们用保修期内的较新的托管交换机替换了它们。

至于“请列出以太网的所有潜在故障模式”——不，这是一个愚蠢的要求。不过，为了你自己的教育，请阅读有关生成树循环的内容，这是一种常见的用户引发的故障模式。

Answer

交换机在其固件中运行代码。有时该代码有缺陷，意外输入可能会导致交换机崩溃。因此，行为不当的主机可能会导致交换机崩溃。这不太可能，但确实会发生。

几年前（可能是 2003 年？）我有非托管的 Netgear 交换机，每周会宕机 2-4 次，就像它们正在经历广播风暴一样 - 就像您上面的描述一样。重新启动堆栈是唯一的解决办法。Netgear 支持人员表示，他们在这些交换机上运行 IP 和 IPX 时存在已知问题，而且由于它们是非托管的，因此没有什么可排除故障的。它们已经 EoL 并且没有进一步的固件升级，因此他们用保修期内的较新的托管交换机替换了它们。

至于“请列出以太网的所有潜在故障模式”——不，这是一个愚蠢的要求。不过，为了你自己的教育，请阅读有关生成树循环的内容，这是一种常见的用户引发的故障模式。

Question 3

由于 Linux 机器似乎有两个 LAN 接口：您能否排除它没有暂时桥接这两个接口，从而创建桥接环路？

仅使用两台交换机并不能实现高可用性。交换机上应该有指示广播风暴的指示器和适当的监控软件。为此，请配置具有更高优先级的管理 VLAN，这样它就不会被广播风暴中断。或者，通过物理上独立的网络链路或带外运行管理功能。

对您的编辑的补充：切换网络，唯一能够使所有端口瘫痪的就是广播风暴或严重拥塞。超大帧（jabber）、碎片或类似异常会被交换机丢弃。来自入口端口的广播风暴会用该端口的带宽淹没网络 - 100M 端口不会对 1G 网络造成太大损害，但 1G 端口很容易淹没所有 100M 出口端口。同样，通过上行链路发送超出其处理能力的数据将丢弃该方向的大多数其他流量。

广播风暴通常是由桥接环路引起的。生成树是解决此问题的好办法，还允许您向网络添加冗余链路。其他风暴可以通过边缘端口上的广播限制来处理。

拥塞是一个更棘手的问题。硬件方法是确保所有上行/下载端口都比任何边缘端口快。在具有 10GE 上行链路的千兆交换机上，您需要至少 10 个边缘端口才能使上行链路饱和。另一种方法是限制边缘端口带宽，这样它们就不会过度馈送上行链路。

Answer