Ubuntu 10.04 上的以太网适配器绑定问题

Ubuntu 10.04 上的以太网适配器绑定问题

我有几台机器,正在用它们构建集群。为了提高性能,我们选择在以太网接口上使用绑定(每个链路为 1Gig)。我已经为 Ubuntu 10.04 安装了 ifenslave-2.6 模块,并且还配置了接口。以下是我的配置。

    # The loopback network interface
    auto lo
    iface lo inet loopback

    # The primary network interface
    auto eth0
    iface eth0 inet manual
    bond-master bond0

    auto eth1
    iface eth1 inet manual
    bond-master bond0

    auto bond0
    iface bond0 inet static
    address x.x.x.x
    gateway x.x.x.1
    netmask 255.255.255.0
    bond-mode 6
    bond-miimon 100
    bond-slaves none

还尝试了 bond-slaves eth0 eth1 而不是 bond-master bond0。但没有任何效果。

因此,如您所见,我正在以 balance-alb 模式或模式 6 运行绑定,以启用上游和下游的绑定。我们经常(频率约为四天)看到机器无法相互通信。没有 ping。在 nmap(nmap -sP xxxx)上不可见。有时有些机器可见,而有些则不可见。它们都是克隆,但这种行为很奇怪。我首先检查了 arp -a 以查看我是否在那里遇到了麻烦。并且有很多不完整的条目。(通常发生在 nmap 扫描之后)但即使在发生超时并且表格稳定后,我仍然无法 ping 它们。

它们都在同一个子网上。没有防火墙。全部进入同一个交换机。我的交换机配置很简单,如下所示

    interface GigabitEthernet1/1
    !
    interface GigabitEthernet1/2
    !
    interface GigabitEthernet1/3
    switchport mode access
    spanning-tree portfast
    !
    interface GigabitEthernet1/4
    switchport mode access
    spanning-tree portfast
    ! 
    interface GigabitEthernet1/5
    switchport mode access
    spanning-tree portfast
    .
    .
    .
    !
    interface GigabitEthernet1/17
    switchport mode access
    spanning-tree portfast
    !
    interface GigabitEthernet1/18
    switchport mode access
    spanning-tree portfast

它们都在 VLAN 1 上。端口 1 连接到我们的路由器。端口 3 - 18 都以相同的方式配置。它们的模式设置为访问,生成树设置为快速端口。每台机器占用此交换机上的两个链接。交换机是 cisco 4948。我可以完美地与网关上的机器或网关外的机器通信。但让它们进行内部通信正成为一个问题,特别是因为我们计划运行 Hadoop。任何帮助、推动、意见都会非常有帮助!谢谢。

另外,添加 ifenslave-2.6 -a 输出。

    ifenslave.c:v1.1.0 (December 1, 2003)
    o Donald Becker ([email protected]).
    o Detach support added on 2000/10/02 by Willy Tarreau (willy at meta-x.org).
    o 2.4 kernel support added on 2001/02/16 by Chad N. Tindel
    (ctindel at ieee dot org).
    The result of SIOCGIFFLAGS on lo is 49.
    The result of SIOCGIFADDR is 00.00.7f.00.
    The result of SIOCGIFHWADDR is type 772  00:00:00:00:00:00.
    The result of SIOCGIFFLAGS on bond0 is 1443.
    The result of SIOCGIFADDR is 00.00.ffffff80.0a.
    The result of SIOCGIFHWADDR is type 1  00:1b:21:47:a0:c1.

即使罚款,你能告诉我吗?那么问题可能出在其他地方。

答案1

我们用链路控制协议/802.3ad 用于我们整个网络的绑定连接;从我们的 SAN(4xGigE + 2xGigE)<-> 服务器(2xGigE)链接到我们的交换机间链接(2x 和 4xGigE 的混合)。

您可以获得带宽聚合和冗余的好处——对我来说最主要的好处是——它比静态链路聚合更容易管理。

虽然我知道它不能直接回答您的问题,但您可能会发现它使链接聚合更易于管理(甚至首先起作用!)。

-

我唯一的其他建议是:连接 wireshark 并查看线路上发生了什么。

相关内容