Linux NIC 绑定失败;奇怪的 CPU 负载

Linux NIC 绑定失败;奇怪的 CPU 负载

注意:下面添加了更新

我在使用 NIC 绑定的 Linux 服务器 ( Debian 6.0.6)上遇到了一个非常奇怪的问题802.3ad。有时绑定中的所有 NIC 都被标记为关闭,并且该events进程在单个线程上以 100% 的 CPU 利用率失控。除了重新启动服务器之外,没有其他办法可以恢复绑定;然后一切都会恢复正常。

正在使用的 NIC 是,Intel VT Quad Port Server Adapter并且所有四个端口都已绑定。802.3ad已在交换机(Netgear 智能交换机)上正确启用并正常运行。

重启后日志中没有任何内容出现,但在崩溃/故障发生后检查终端时,打印了有关无法重置 NIC 的错误消息。我不记得确切的消息了;我以为它们在其中一个日志文件中,所以我只是重启以使服务器恢复运行。

债券的配置方式如下:

############################
# modprobe.d configuration #
############################
alias bond0 bonding
options bond0 mode=4 miimon=100 arp_interval=100 arp_ip_target=10.1.1.1 max_bonds=2
# Another bonding rule for two other NICs...

############################
# relevent lines in        #
# /etc/network/interfaces  #
############################
auto bond0
iface bond0 inet static
        address 10.1.1.100
        netmask 255.255.254.0
        broadcast 10.1.1.255
        network 1.1.0.0
        gateway 10.1.0.1
        slaves eth2 eth3 eth4 eth5
        bond-mode 802.3ad
        bond-miimon 100
        bond-downdelay 200
        bond-updelay 200
        dns-nameservers 10.1.0.1

上述配置中,10.1.1.1arp_ip_target交换机的IP地址,交换机始终处于开启状态。

有人见过这种情况吗?或者有什么建议吗?过去两个月里,这种情况发生过两次;很难准确指出问题的原因,但需要修复。我尝试了所有能想到的方法来重现这个问题。

更新: NIC 上的一个接口开始仅与交换机协商 10mbit 速度。我通过将带有 1gbit NIC 的笔记本电脑直接插入出现问题的服务器上的接口,确认电缆不是问题,交换机也不是问题;它首先协商 1000gbit 速度,几秒钟后死机,然后重新协商 100mbit 速度。我还尝试将有问题的卡上的另一个接口插入交换机上插入故障接口的同一端口,它工作正常。

假设只有卡上的一个接口出现故障,而不是整个卡本身。为什么如果一个接口掉线,整个绑定就会失败?我的配置(上面)有问题吗?如果没有,我假设整个卡正在慢慢开始出现故障,需要更换。

无论哪种方式,我都计划更换整个卡,我只是想确保我的配置是正确的,以防将来出现故障和教育目的。

答案1

ARP 监视器不符合 802.3ad (LACP)。请切换到miimon

相关内容