集群中的某些节点在 ifconfig 中具有较高的帧值

集群中的某些节点在 ifconfig 中具有较高的帧值

我正在运行一个由 22 个节点组成的集群。(同一个 1Gbps 交换机下的 22 个节点。)
我注意到集群中的某些节点在 ifconfig 中具有较高的“帧”值,如下所示。

一些节点(较高框架):
eth0 链路封装:以太网 HWaddr 90:B1:1C:09:D2:F8
          inet 地址:192.168.121.20 Bcast:192.168.121.255 掩码:255.255.255.0
          inet6 地址:fe80::92b1:1cff:fe09:d2f8/64 范围:链接
          上行广播运行多播 MTU:1500 度量:1
          RX 数据包:643150667 错误:0 丢弃:790 超限:0 帧:280072
          TX 数据包:908361364 错误:0 丢弃:0 超限:0 载波:0
          碰撞:0 txqueuelen:1000
          RX 字节数:377424658828 (351.5 GiB) TX 字节数:864099883266 (804.7 GiB)
          中断:170 内存:d91a0000-d91b0000

其他节点(下图):
eth0 链路封装:以太网 HWaddr 24:B6:FD:F6:DF:34
          inet 地址:192.168.121.3 广播:192.168.121.255 掩码:255.255.255.0
          inet6 地址:fe80::26b6:fdff:fef6:df34/64 范围:链接
          上行广播运行多播 MTU:1500 度量:1
          RX 数据包:1126524649 错误:0 丢弃:118 超限:0 帧:43775
          TX 数据包:847071691 错误:0 丢弃:0 超限:0 载波:0
          碰撞:0 txqueuelen:1000
          RX 字节数:992080311726 (923.9 GiB) TX 字节数:385366462299 (358.9 GiB)
          中断:170 内存:d91a0000-d91b0000

它可能存在什么问题?

我还运行了 ethtool,结果“rxbds_empty”与 ifconfig 中的“frame”匹配,“rx_discards”与 ifconfig 中的“dropped”匹配。rxbds_empty
和 rx_discards 是什么?
我调查过这些,但几乎没有相关信息。
它们是否来自错误的配置或设置?

奇怪的是,新添加的 6 个节点的值更高。
此外,我注意到一些程序的运行速度比我们添加这 6 个节点之前慢。
该程序正在做的是每个节点并行向其他随机节点请求大量短消息。
理想情况下,每个节点在程序中都有一些完成时间,但添加的 6 个节点的运行速度比其他节点慢。

有人能给我一些建议吗?任何帮助我都会很感激。

答案1

帧错误表示节点的 NIC 从交换机接收数据时发生了某种 CRC 故障。您应该首先检查物理层:

  1. 使用(显然)电缆测试仪测试电缆。它至少应符合 Cat5e 标准。
  2. 检查交换机上的 MTU(可以启用巨型帧吗?)
  3. 确认交换机和节点上的端口设置相同:端口速度、双工和流量控制。
  4. 检查交换机上的端口统计信息(例如show interface Gi0/4

相关内容