因此,我正在尝试在以太网网络旁建立一个 Infiniband 网络。
我有 10 个计算节点和一个控制节点。所有 11 台机器都运行 CentOS,并插入 Infiniband 交换机和以太网交换机。
以太网:192.168.1.0/24 Infiniband:192.168.2.0/24
指挥节点为 192.168.1.125(以太网)和 192.168.2.125(Infiniband)。计算节点 X 为 192.168.1.10X(以太网)和 192.1.168.2.10X(以太网)。所有 IP 地址均为静态分配。
因此我登录到其中一个计算节点(compute-7):
这是/etc/sysconfig/network-scripts/ifcfg-em1
DEVICE=em1
ONBOOT=yes
NM_CONTROLLED=no
BOOTPROTO=none
IPV6INIT=no
USERCTL=no
IPADDR=192.168.1.107
NETMASK=255.255.255.0
NETWORK=192.168.1.0
BROADCAST=192.168.1.255
GATEWAY=192.168.1.125 #via conductor node
DNS1=192.168.1.125 #via conductor node
这是/etc/sysconfig/network-scripts/ifcfg-ib0
DEVICE=ib0
ONBOOT=yes
NM_CONTROLLED=no
BOOTPROTO=none
IPV6INIT=no
USERCTL=no
TYPE=InfiniBand
IPADDR=192.168.2.107
NETMASK=255.255.255.0
NETWORK=192.168.2.0
BROADCAST=192.168.2.255
当我做:
sudo network restart
在此计算节点上,情况如下ifconfig -a
:
em1 Link encap:Ethernet HWaddr xx:xx:xx:xx:3A:FB
inet addr:192.168.1.107 Bcast:192.168.1.255 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:1236641045 errors:0 dropped:0 overruns:0 frame:0
TX packets:1239585124 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:1561224959733 (1.4 TiB) TX bytes:1560979085053 (1.4 TiB)
Memory:91220000-91240000
ib0 Link encap:InfiniBand HWaddr 80:00:00:48:FE:80:00:00:00:00:00:00:00:00:00:00:00:00:00:00
inet addr:192.168.2.107 Bcast:192.168.2.255 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:2044 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:256
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b)
并route -nn
给出:
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
192.168.2.0 0.0.0.0 255.255.255.0 U 0 0 0 ib0
192.168.1.0 0.0.0.0 255.255.255.0 U 0 0 0 em1
169.254.0.0 0.0.0.0 255.255.0.0 U 1002 0 0 em1
169.254.0.0 0.0.0.0 255.255.0.0 U 1004 0 0 ib0
0.0.0.0 192.168.1.125 0.0.0.0 UG 0 0 0 em1
这不是我想要的!我希望 192.168.2.107(计算节点 7)能够通过 192.168.2.x 网络与 192.168.2.108(计算节点 8)通信。上述路由不正确!
在这种情况下,我的 Infiniband 节点无法相互通信…… - 对 192.168.2.0/24 子网的请求通过 192.168.1.125(以太网)路由,速度非常慢......
我一直在尝试设置文件
/etc/sysconfig/network-scripts/route-em1
和
/etc/sysconfig/network-scripts/route-ib0
类似这样的代码:
192.168.1.0 netmask 255.255.255.0 gw 192.168.1.125 dev em1
192.168.2.0 netmask 255.255.255.0 gw 192.168.2.125 dev ib0
但是每次我重新启动网络时,都会得到错误的路由......
有人能帮助我如何才能获得正确的路线吗?
恐怕我对网络的了解不够全面,而且我发现我在这里“黑客”了很多东西......
有人能帮助我吗?我只想能够像现在使用以太网ssh ostrich@compute-8-ib
一样使用 Infinibandssh ostrich@compute-8
一旦我弄清楚了静态网络,我将使用 DHCP 和命名来完成所有操作,但是现在;我只是专注于静态地正确完成它。
@Frederic Nielsen:
这是指挥节点上的路由表:
192.168.2.0 0.0.0.0 255.255.255.0 U 0 0 0 ib0
192.168.1.0 0.0.0.0 255.255.255.0 U 0 0 0 em1
137.43.92.0 0.0.0.0 255.255.254.0 U 0 0 0 em2
169.254.0.0 0.0.0.0 255.255.0.0 U 1002 0 0 em1
169.254.0.0 0.0.0.0 255.255.0.0 U 1003 0 0 em2
169.254.0.0 0.0.0.0 255.255.0.0 U 1004 0 0 ib0
0.0.0.0 187.42.92.1 0.0.0.0 UG 0 0 0 em2