设置 Infiniband 网络 - 错误路由

设置 Infiniband 网络 - 错误路由

因此,我正在尝试在以太网网络旁建立一个 Infiniband 网络。

我有 10 个计算节点和一个控制节点。所有 11 台机器都运行 CentOS,并插入 Infiniband 交换机和以太网交换机。

以太网:192.168.1.0/24 Infiniband:192.168.2.0/24

指挥节点为 192.168.1.125(以太网)和 192.168.2.125(Infiniband)。计算节点 X 为 192.168.1.10X(以太网)和 192.1.168.2.10X(以太网)。所有 IP 地址均为静态分配。

因此我登录到其中一个计算节点(compute-7):

这是/etc/sysconfig/network-scripts/ifcfg-em1

DEVICE=em1
ONBOOT=yes
NM_CONTROLLED=no
BOOTPROTO=none
IPV6INIT=no
USERCTL=no

IPADDR=192.168.1.107
NETMASK=255.255.255.0
NETWORK=192.168.1.0
BROADCAST=192.168.1.255
GATEWAY=192.168.1.125   #via conductor node
DNS1=192.168.1.125   #via conductor node

这是/etc/sysconfig/network-scripts/ifcfg-ib0

DEVICE=ib0
ONBOOT=yes
NM_CONTROLLED=no
BOOTPROTO=none
IPV6INIT=no
USERCTL=no
TYPE=InfiniBand

IPADDR=192.168.2.107
NETMASK=255.255.255.0
NETWORK=192.168.2.0
BROADCAST=192.168.2.255

当我做:

sudo network restart在此计算节点上,情况如下ifconfig -a

em1       Link encap:Ethernet  HWaddr xx:xx:xx:xx:3A:FB  
          inet addr:192.168.1.107  Bcast:192.168.1.255  Mask:255.255.255.0
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:1236641045 errors:0 dropped:0 overruns:0 frame:0
          TX packets:1239585124 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:1561224959733 (1.4 TiB)  TX bytes:1560979085053 (1.4 TiB)
          Memory:91220000-91240000 

ib0       Link encap:InfiniBand  HWaddr 80:00:00:48:FE:80:00:00:00:00:00:00:00:00:00:00:00:00:00:00  
          inet addr:192.168.2.107  Bcast:192.168.2.255  Mask:255.255.255.0
          UP BROADCAST RUNNING MULTICAST  MTU:2044  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:256 
          RX bytes:0 (0.0 b)  TX bytes:0 (0.0 b)

route -nn给出:

Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
192.168.2.0     0.0.0.0         255.255.255.0   U     0      0        0 ib0
192.168.1.0     0.0.0.0         255.255.255.0   U     0      0        0 em1
169.254.0.0     0.0.0.0         255.255.0.0     U     1002   0        0 em1
169.254.0.0     0.0.0.0         255.255.0.0     U     1004   0        0 ib0
0.0.0.0         192.168.1.125   0.0.0.0         UG    0      0        0 em1

这不是我想要的!我希望 192.168.2.107(计算节点 7)能够通过 192.168.2.x 网络与 192.168.2.108(计算节点 8)通信。上述路由不正确!

在这种情况下,我的 Infiniband 节点无法相互通信…… - 对 192.168.2.0/24 子网的请求通过 192.168.1.125(以太网)路由,速度非常慢......

我一直在尝试设置文件

/etc/sysconfig/network-scripts/route-em1

/etc/sysconfig/network-scripts/route-ib0

类似这样的代码:

192.168.1.0 netmask 255.255.255.0 gw 192.168.1.125 dev em1

192.168.2.0 netmask 255.255.255.0 gw 192.168.2.125 dev ib0

但是每次我重新启动网络时,都会得到错误的路由......

有人能帮助我如何才能获得正确的路线吗?

恐怕我对网络的了解不够全面,而且我发现我在这里“黑客”了很多东西......

有人能帮助我吗?我只想能够像现在使用以太网ssh ostrich@compute-8-ib一样使用 Infinibandssh ostrich@compute-8

一旦我弄清楚了静态网络,我将使用 DHCP 和命名来完成所有操作,但是现在;我只是专注于静态地正确完成它。

@Frederic Nielsen:

这是指挥节点上的路由表:

192.168.2.0     0.0.0.0         255.255.255.0   U     0      0        0 ib0
192.168.1.0     0.0.0.0         255.255.255.0   U     0      0        0 em1
137.43.92.0     0.0.0.0         255.255.254.0   U     0      0        0 em2
169.254.0.0     0.0.0.0         255.255.0.0     U     1002   0        0 em1
169.254.0.0     0.0.0.0         255.255.0.0     U     1003   0        0 em2
169.254.0.0     0.0.0.0         255.255.0.0     U     1004   0        0 ib0
0.0.0.0         187.42.92.1     0.0.0.0         UG    0      0        0 em2

相关内容