我正在运行一个运行 Centos 6.8 的 rocks 6.2 集群。它主要由头节点、计算节点和文件服务器组成。它们通过 10Gb 本地交换机连接,并且全部位于数据中心 1Gb 交换机上(计算节点仅在本地交换机上,并使用头节点作为数据中心交换机的网关)。因此,您可以想象我将文件服务器安装在本地交换机上。
我最近在我的其中一个文件服务器(cslim)中添加了一个新卷,重新启动并做了一些更改以便通过 NFSv4 正确显示文件所有权(对 /etc/idmapd.conf 和 /etc/default/nfs-common 进行更改,我已经在所有其他服务器上成功完成了此操作)。
两个导出的卷正确安装到头节点和我在集群中尝试过的其他几台服务器上。但是我无法让计算节点通过本地交换机安装卷。我只得到mount.nfs: Connection timed out
。通过数据中心交换机安装到计算节点确实有效。
我无法确定该服务器是否先前已安装到计算节点,因为直到最近那里的唯一卷是我通过头节点处理的存档和管理文件。
此外,计算节点无法通过本地交换机 ping 或 ssh 到 cslim,但头节点和其他服务器可以通过本地交换机执行这些操作。计算节点可以通过数据中心交换机 ping 和 ssh 到 cslim,以及本地交换机上的其他服务器。尝试 ssh 会得到ssh: connect to host cslim-local port 22: No route to host
。
计算节点正确解析 cslim 的本地主机名 (cslim-local),并且使用 IP 地址本身也一切失败。
如果我理解正确的话,从计算节点到 cslim 的跟踪路由超时了:
[root@compute-0-0 ~]# traceroute cslim-local
traceroute to cslim-local (10.1.1.11), 30 hops max, 60 byte packets
1 compute-0-0.local (10.1.255.254) 3000.757 ms !H 3000.755 ms !H 3000.752 ms !H
[root@compute-0-0 ~]# traceroute picsl-local
traceroute to picsl-local (10.1.1.16), 30 hops max, 60 byte packets
1 picsl-local.local (10.1.1.16) 0.212 ms 0.209 ms 0.204 ms
我已禁用 cslim 上的防火墙,但无济于事。我已重新启动 cslim,重新启动 nfs 和 rpcidmapd 服务。cslim 正在导出到 10.1.0.0/255.255.0.0 处的计算节点:
[root@cslim ~]# exportfs
<snip>
/mnt/data/archive 10.1.0.0/255.255.0.0
/mnt/data-jux 10.1.0.0/255.255.0.0
当挂载失败时,cslim 或计算节点上的 /var/log/messages 或 /var/log/secure 中没有任何内容。
有人有什么想法吗?
更新:
路由追踪超时,出现‘主机不可达’:
[root@compute-0-0 ~]# traceroute cslim-local
traceroute to cslim-local (10.1.1.11), 30 hops max, 60 byte packets
1 compute-0-0.local (10.1.255.254) 3000.757 ms !H 3000.755 ms !H 3000.752 ms !H
这显示同一交换机上的另一台服务器可访问:
[root@compute-0-0 ~]# traceroute picsl-local
traceroute to picsl-local (10.1.1.16), 30 hops max, 60 byte packets
1 picsl-local.local (10.1.1.16) 0.212 ms 0.209 ms 0.204 ms
SELinux在 cslim 上设置为强制执行。设置为宽容没有帮助。
防火墙已在计算节点上停止,而且这也没有帮助。
netstat 输出
在计算节点上:
[root@compute-0-0 ~]# netstat -rn
Kernel IP routing table
Destination Gateway Genmask Flags MSS Window irtt Iface
255.255.255.255 0.0.0.0 255.255.255.255 UH 0 0 0 p1p1
170.212.169.128 10.1.1.1 255.255.255.255 UGH 0 0 0 p1p1
224.0.0.0 0.0.0.0 255.255.255.0 U 0 0 0 p1p1
10.1.0.0 0.0.0.0 255.255.0.0 U 0 0 0 p1p1
169.254.0.0 0.0.0.0 255.255.0.0 U 0 0 0 p1p1
0.0.0.0 10.1.1.1 0.0.0.0 UG 0 0 0 p1p1
请注意,10.1.1.1 是头节点。
在 cslim 上:
[root@cslim ~]# netstat -rn
Kernel IP routing table
Destination Gateway Genmask Flags MSS Window irtt Iface
170.212.169.0 0.0.0.0 255.255.255.0 U 0 0 0 eth0
10.1.1.0 0.0.0.0 255.255.255.0 U 0 0 0 bond0
169.254.0.0 0.0.0.0 255.255.0.0 U 0 0 0 eth0
169.254.0.0 0.0.0.0 255.255.0.0 U 0 0 0 bond0
0.0.0.0 170.212.169.2 0.0.0.0 UG 0 0 0 eth0
在 picsl 上(上面的 traceroute 测试中显示的 picsl-local。该服务器可以通过本地交换机挂载 cslim 卷):
[root@picsl-cluster ~]# netstat -rn
Kernel IP routing table
Destination Gateway Genmask Flags MSS Window irtt Iface
170.212.169.225 10.1.1.1 255.255.255.255 UGH 0 0 0 eth0
170.212.169.0 0.0.0.0 255.255.255.0 U 0 0 0 em1
192.168.122.0 0.0.0.0 255.255.255.0 U 0 0 0 virbr0
10.1.0.0 0.0.0.0 255.255.0.0 U 0 0 0 eth0
169.254.0.0 0.0.0.0 255.255.0.0 U 0 0 0 eth0
169.254.0.0 0.0.0.0 255.255.0.0 U 0 0 0 em1
0.0.0.0 170.212.169.2 0.0.0.0 UG 0 0 0 em1
是否配置
在计算节点上:
[root@compute-0-0 ~]# ifconfig -a
em1 Link encap:Ethernet HWaddr 90:B1:1C:28:D8:27
BROADCAST MULTICAST MTU:1500 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b)
Interrupt:16
em2 Link encap:Ethernet HWaddr 90:B1:1C:28:D8:28
BROADCAST MULTICAST MTU:1500 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b)
Interrupt:17
lo Link encap:Local Loopback
inet addr:127.0.0.1 Mask:255.0.0.0
inet6 addr: ::1/128 Scope:Host
UP LOOPBACK RUNNING MTU:65536 Metric:1
RX packets:360953790 errors:0 dropped:0 overruns:0 frame:0
TX packets:360953790 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:1108715304547 (1.0 TiB) TX bytes:1108715304547 (1.0 TiB)
p1p1 Link encap:Ethernet HWaddr 00:10:18:F0:31:A0
inet addr:10.1.255.254 Bcast:10.1.255.255 Mask:255.255.0.0
inet6 addr: fe80::210:18ff:fef0:31a0/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:1654711736 errors:0 dropped:0 overruns:0 frame:0
TX packets:2560600760 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:2054533957261 (1.8 TiB) TX bytes:3252638973302 (2.9 TiB)
Interrupt:80 Memory:d0000000-d07fffff
p1p2 Link encap:Ethernet HWaddr 00:10:18:F0:31:A2
BROADCAST MULTICAST MTU:1500 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b)
Interrupt:84 Memory:d1000000-d17fffff
在 cslim 上:
[root@cslim ~]# ifconfig -a
bond0 Link encap:Ethernet HWaddr 00:21:28:3D:6D:03
inet addr:10.1.1.11 Bcast:10.1.1.255 Mask:255.255.255.0
inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
UP BROADCAST RUNNING MASTER MULTICAST MTU:1500 Metric:1
RX packets:351143643 errors:0 dropped:0 overruns:0 frame:0
TX packets:22812517 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:495999344326 (461.9 GiB) TX bytes:1721189388 (1.6 GiB)
eth0 Link encap:Ethernet HWaddr 00:21:28:3D:6D:02
inet addr:170.212.169.151 Bcast:170.212.169.255 Mask:255.255.255.0
inet6 addr: fe80::221:28ff:fe3d:6d02/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:22690383 errors:1152 dropped:0 overruns:1150 frame:2
TX packets:2716530 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:33135278971 (30.8 GiB) TX bytes:227883477 (217.3 MiB)
eth1 Link encap:Ethernet HWaddr 00:21:28:3D:6D:03
inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
UP BROADCAST RUNNING SLAVE MULTICAST MTU:1500 Metric:1
RX packets:2766456 errors:0 dropped:0 overruns:0 frame:0
TX packets:22803974 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:380681543 (363.0 MiB) TX bytes:1720423086 (1.6 GiB)
eth2 Link encap:Ethernet HWaddr 00:21:28:3D:6D:04
inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
UP BROADCAST RUNNING SLAVE MULTICAST MTU:1500 Metric:1
RX packets:345621248 errors:444 dropped:0 overruns:444 frame:0
TX packets:8492 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:495244880097 (461.2 GiB) TX bytes:757968 (740.2 KiB)
eth3 Link encap:Ethernet HWaddr 00:21:28:3D:6D:05
inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
UP BROADCAST RUNNING SLAVE MULTICAST MTU:1500 Metric:1
RX packets:2755939 errors:444 dropped:0 overruns:444 frame:0
TX packets:51 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:373782686 (356.4 MiB) TX bytes:8334 (8.1 KiB)
lo Link encap:Local Loopback
inet addr:127.0.0.1 Mask:255.0.0.0
inet6 addr: ::1/128 Scope:Host
UP LOOPBACK RUNNING MTU:65536 Metric:1
RX packets:3512 errors:0 dropped:0 overruns:0 frame:0
TX packets:3512 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:517649 (505.5 KiB) TX bytes:517649 (505.5 KiB)
答案1
我认为问题出在文件服务器 10.x 接口上的网络掩码。以下是我对当前设置的理解...
| machine | IP | netmask | cidr |
|-------------|--------------|---------------|------|
| compute-0-0 | 10.1.255.254 | 255.255.0.0 | /16 |
| picsl | 10.1.1.16 | 255.255.0.0 | /16 |
| cslim | 10.1.1.11 | 255.255.255.0 | /24 |
这意味着 compute-0-0 和 picsl 都认为它们可以直接到达 cslim,但 cslim 只能直接到达 picsl,需要通过网关才能到达 compute-0-0。这可能不是您所期望的,并且不会起作用。
根据我目前看到的信息,解决方法是将文件服务器 10.x 接口 (bond0) 的网络掩码更改为 255.255.0.0。但是,当前设置可能有原因,因此请与当地网络团队联系(如果有)。