我有一台 HP ProCurve V1810-48G 交换机,上面连接着几台运行 Citrix XenServer 的服务器(所有服务器都位于一个机架中)。交换机几乎处于默认配置(无 VLAN、无端口镜像/监控,除网关外没有连接其他路由器)。
在将几百 GB 的数据复制到server27
NFS 挂载目录的过程中,server18
我注意到同一机架中其他服务器出现了网络相关的错误消息,就好像它们不再能够相互或其用户发送/接收流量一样,例如来自外部网络监控服务的错误消息,表明某个网站不再可访问。
取消复制命令后一切恢复正常。
注意所有提到的服务器都连接到同一个交换机并且位于同一个 IP 网络中。我一直认为一台交换机上的两台服务器之间的连接不会影响连接到该交换机的任何其他服务器。
然后我将交换机连接到 zabbix 监控服务器。以下是屏幕截图: 您可以在此处看到,从 server27(右下)到 server18(第二行左侧)的传出流量似乎影响了机架中的每台服务器。我还暂停了一次复制过程,您可以看到其他所有人的网络流量都有所下降。
您还可以在图表中看到 zabbix 服务器(server21)无法连接到交换机的间隙。
检查服务器端(而不是交换机端)的网络流量,发现只有正常的流量,而不是上图所示的巨大流量。
一些评论者指出,交换机两个端口之间的流量不应该影响任何其他端口。然而,该图表明某处存在一个微妙的问题。仅 20 MByte/s 的流量就影响了与所有其他系统的连接。
答案1
这与“您是否尝试过打开和关闭它”相差不远,但您是否更新了固件?如果您查看发行说明,会发现一些与 ARP 相关的修复。
https://h10145.www1.hp.com/downloads/SoftwareReleases.aspx?ProductNumber=J9660A
为了收集更多信息以便人们能够帮助排除故障,当这种情况发生时,您是否有来自交换机本身的日志?
除了管理信息之外,您能否分享与默认状态相比配置发生了哪些变化?
有问题的主机中是否有运行 Xen 服务器?您是否发现其他主机之间也存在问题(现在您已经获得了历史图表,您应该能够检查其他地方是否也存在此问题)?
答案2
我们需要澄清情况以便为您提供最佳答案。
你能否确认这都是同一个机架或者交换机肯定有默认配置,比如端口配置,vlan,网关。
即 DC1
机架 1:
HP Switch
server_A
Server_B
DC2
机架2:
HP Switch
服务器_C
服务器_D
否则,从您给出的解释来看,server_C 和 Server_D 位于不同的数据中心,但仍位于同一网段中以便进行通信。如果是这种情况,则您正在使用最大本地资源来传输数据,如果 servers_C 和 _D 使用 DC2 rack2 HP 交换机作为主干,则会导致问题。
问题:您在数据中心工作还是服务器的系统管理员?您能提供网络段吗?网络 xxxx 上的服务器 A 和 B 等 _C 和 _D 如何连接到 _A 和 _B?
请更具体地说明服务器 C 和服务器 D 的位置。例如,它们位于 x 栋楼或 x 机架中
谢谢。
答案3
在正常情况下,不会,从服务器 A 到 B 的流量不会影响 C 到 D。此外,从 A 到 B 的单向流仅在一个方向上使用全部带宽,千兆以太网是双向的,因此您实际上只使用了这些端口带宽的一半。
Switch 的“终端”可能存在的唯一问题就是配置问题。可能是端口镜像/监控(将一个或多个其他端口的所有流量发送到单个“监控”端口)。或者可能存在某种使用策略(不过我认为 1800 系列不支持带宽策略或类似策略)。您还可以设置 vLAN,并在某处使用瓶颈路由器(即使它们位于同一交换机上,也不一定能使它们都位于同一广播域中)可以一个广播域中拥有多个子网,从而再次强制使用路由器)。