文件服务器对于部分集群不可用

文件服务器对于部分集群不可用

我正在运行一个运行 Centos 6.8 的 rocks 6.2 集群。它主要由头节点、计算节点和文件服务器组成。它们通过 10Gb 本地交换机连接,并且全部位于数据中心 1Gb 交换机上(计算节点仅在本地交换机上,并使用头节点作为数据中心交换机的网关)。因此,您可以想象我将文件服务器安装在本地交换机上。

我最近在我的其中一个文件服务器(cslim)中添加了一个新卷,重新启动并做了一些更改以便通过 NFSv4 正确显示文件所有权(对 /etc/idmapd.conf 和 /etc/default/nfs-common 进行更改,我已经在所有其他服务器上成功完成了此操作)。

两个导出的卷正确安装到头节点和我在集群中尝试过的其他几台服务器上。但是我无法让计算节点通过本地交换机安装卷。我只得到mount.nfs: Connection timed out。通过数据中心交换机安装到计算节点确实有效。

我无法确定该服务器是否先前已安装到计算节点,因为直到最近那里的唯一卷是我通过头节点处理的存档和管理文件。

此外,计算节点无法通过本地交换机 ping 或 ssh 到 cslim,但头节点和其他服务器可以通过本地交换机执行这些操作。计算节点可以通过数据中心交换机 ping 和 ssh 到 cslim,以及本地交换机上的其他服务器。尝试 ssh 会得到ssh: connect to host cslim-local port 22: No route to host

计算节点正确解析 cslim 的本地主机名 (cslim-local),并且使用 IP 地址本身也一切失败。

如果我理解正确的话,从计算节点到 cslim 的跟踪路由超时了:

[root@compute-0-0 ~]# traceroute cslim-local
traceroute to cslim-local (10.1.1.11), 30 hops max, 60 byte packets 
1 compute-0-0.local (10.1.255.254) 3000.757 ms !H 3000.755 ms !H 3000.752 ms !H 

[root@compute-0-0 ~]# traceroute picsl-local 
traceroute to picsl-local (10.1.1.16), 30 hops max, 60 byte packets 
1 picsl-local.local (10.1.1.16) 0.212 ms 0.209 ms 0.204 ms

我已禁用 cslim 上的防火墙,但无济于事。我已重新启动 cslim,重新启动 nfs 和 rpcidmapd 服务。cslim 正在导出到 10.1.0.0/255.255.0.0 处的计算节点:

[root@cslim ~]# exportfs
<snip>
/mnt/data/archive 10.1.0.0/255.255.0.0
/mnt/data-jux     10.1.0.0/255.255.0.0

当挂载失败时,cslim 或计算节点上的 /var/log/messages 或 /var/log/secure 中没有任何内容。

有人有什么想法吗?

更新:

路由追踪超时,出现‘主机不可达’:

[root@compute-0-0 ~]# traceroute cslim-local
traceroute to cslim-local (10.1.1.11), 30 hops max, 60 byte packets
 1  compute-0-0.local (10.1.255.254)  3000.757 ms !H  3000.755 ms !H  3000.752 ms !H

这显示同一交换机上的另一台服务器可访问:

[root@compute-0-0 ~]# traceroute picsl-local
traceroute to picsl-local (10.1.1.16), 30 hops max, 60 byte packets
 1  picsl-local.local (10.1.1.16)  0.212 ms  0.209 ms  0.204 ms

SELinux在 cslim 上设置为强制执行。设置为宽容没有帮助。

防火墙已在计算节点上停止,而且这也没有帮助。

netstat 输出

在计算节点上:

[root@compute-0-0 ~]# netstat -rn
Kernel IP routing table
Destination     Gateway         Genmask         Flags   MSS Window  irtt Iface
255.255.255.255 0.0.0.0         255.255.255.255 UH        0 0          0 p1p1
170.212.169.128 10.1.1.1        255.255.255.255 UGH       0 0          0 p1p1
224.0.0.0       0.0.0.0         255.255.255.0   U         0 0          0 p1p1
10.1.0.0        0.0.0.0         255.255.0.0     U         0 0          0 p1p1
169.254.0.0     0.0.0.0         255.255.0.0     U         0 0          0 p1p1
0.0.0.0         10.1.1.1        0.0.0.0         UG        0 0          0 p1p1

请注意,10.1.1.1 是头节点。

在 cslim 上:

[root@cslim ~]# netstat -rn
Kernel IP routing table
Destination     Gateway         Genmask         Flags   MSS Window  irtt Iface
170.212.169.0   0.0.0.0         255.255.255.0   U         0 0          0 eth0
10.1.1.0        0.0.0.0         255.255.255.0   U         0 0          0 bond0
169.254.0.0     0.0.0.0         255.255.0.0     U         0 0          0 eth0
169.254.0.0     0.0.0.0         255.255.0.0     U         0 0          0 bond0
0.0.0.0         170.212.169.2   0.0.0.0         UG        0 0          0 eth0

在 picsl 上(上面的 traceroute 测试中显示的 picsl-local。该服务器可以通过本地交换机挂载 cslim 卷):

[root@picsl-cluster ~]# netstat -rn
Kernel IP routing table
Destination     Gateway         Genmask         Flags   MSS Window  irtt Iface
170.212.169.225 10.1.1.1        255.255.255.255 UGH       0 0          0 eth0
170.212.169.0   0.0.0.0         255.255.255.0   U         0 0          0 em1
192.168.122.0   0.0.0.0         255.255.255.0   U         0 0          0 virbr0
10.1.0.0        0.0.0.0         255.255.0.0     U         0 0          0 eth0
169.254.0.0     0.0.0.0         255.255.0.0     U         0 0          0 eth0
169.254.0.0     0.0.0.0         255.255.0.0     U         0 0          0 em1
0.0.0.0         170.212.169.2   0.0.0.0         UG        0 0          0 em1

是否配置

在计算节点上:

[root@compute-0-0 ~]# ifconfig -a
em1       Link encap:Ethernet  HWaddr 90:B1:1C:28:D8:27  
          BROADCAST MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:0 (0.0 b)  TX bytes:0 (0.0 b)
          Interrupt:16 

em2       Link encap:Ethernet  HWaddr 90:B1:1C:28:D8:28  
          BROADCAST MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:0 (0.0 b)  TX bytes:0 (0.0 b)
          Interrupt:17 

lo        Link encap:Local Loopback  
          inet addr:127.0.0.1  Mask:255.0.0.0
          inet6 addr: ::1/128 Scope:Host
          UP LOOPBACK RUNNING  MTU:65536  Metric:1
          RX packets:360953790 errors:0 dropped:0 overruns:0 frame:0
          TX packets:360953790 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0 
          RX bytes:1108715304547 (1.0 TiB)  TX bytes:1108715304547 (1.0 TiB)

p1p1      Link encap:Ethernet  HWaddr 00:10:18:F0:31:A0  
          inet addr:10.1.255.254  Bcast:10.1.255.255  Mask:255.255.0.0
          inet6 addr: fe80::210:18ff:fef0:31a0/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:1654711736 errors:0 dropped:0 overruns:0 frame:0
          TX packets:2560600760 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:2054533957261 (1.8 TiB)  TX bytes:3252638973302 (2.9 TiB)
          Interrupt:80 Memory:d0000000-d07fffff 

p1p2      Link encap:Ethernet  HWaddr 00:10:18:F0:31:A2  
          BROADCAST MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:0 (0.0 b)  TX bytes:0 (0.0 b)
          Interrupt:84 Memory:d1000000-d17fffff 

在 cslim 上:

[root@cslim ~]# ifconfig -a
bond0     Link encap:Ethernet  HWaddr 00:21:28:3D:6D:03  
          inet addr:10.1.1.11  Bcast:10.1.1.255  Mask:255.255.255.0
          inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
          UP BROADCAST RUNNING MASTER MULTICAST  MTU:1500  Metric:1
          RX packets:351143643 errors:0 dropped:0 overruns:0 frame:0
          TX packets:22812517 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0 
          RX bytes:495999344326 (461.9 GiB)  TX bytes:1721189388 (1.6 GiB)

eth0      Link encap:Ethernet  HWaddr 00:21:28:3D:6D:02  
          inet addr:170.212.169.151  Bcast:170.212.169.255  Mask:255.255.255.0
          inet6 addr: fe80::221:28ff:fe3d:6d02/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:22690383 errors:1152 dropped:0 overruns:1150 frame:2
          TX packets:2716530 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:33135278971 (30.8 GiB)  TX bytes:227883477 (217.3 MiB)

eth1      Link encap:Ethernet  HWaddr 00:21:28:3D:6D:03  
          inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
          UP BROADCAST RUNNING SLAVE MULTICAST  MTU:1500  Metric:1
          RX packets:2766456 errors:0 dropped:0 overruns:0 frame:0
          TX packets:22803974 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:380681543 (363.0 MiB)  TX bytes:1720423086 (1.6 GiB)

eth2      Link encap:Ethernet  HWaddr 00:21:28:3D:6D:04  
          inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
          UP BROADCAST RUNNING SLAVE MULTICAST  MTU:1500  Metric:1
          RX packets:345621248 errors:444 dropped:0 overruns:444 frame:0
          TX packets:8492 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:495244880097 (461.2 GiB)  TX bytes:757968 (740.2 KiB)

eth3      Link encap:Ethernet  HWaddr 00:21:28:3D:6D:05  
          inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
          UP BROADCAST RUNNING SLAVE MULTICAST  MTU:1500  Metric:1
          RX packets:2755939 errors:444 dropped:0 overruns:444 frame:0
          TX packets:51 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:373782686 (356.4 MiB)  TX bytes:8334 (8.1 KiB)

lo        Link encap:Local Loopback  
          inet addr:127.0.0.1  Mask:255.0.0.0
          inet6 addr: ::1/128 Scope:Host
          UP LOOPBACK RUNNING  MTU:65536  Metric:1
          RX packets:3512 errors:0 dropped:0 overruns:0 frame:0
          TX packets:3512 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0 
          RX bytes:517649 (505.5 KiB)  TX bytes:517649 (505.5 KiB)

答案1

我认为问题出在文件服务器 10.x 接口上的网络掩码。以下是我对当前设置的理解...

|   machine   |      IP      |    netmask    | cidr |
|-------------|--------------|---------------|------|
| compute-0-0 | 10.1.255.254 |   255.255.0.0 | /16  |
| picsl       |    10.1.1.16 |   255.255.0.0 | /16  |
| cslim       |    10.1.1.11 | 255.255.255.0 | /24  |

这意味着 compute-0-0 和 picsl 都认为它们可以直接到达 cslim,但 cslim 只能直接到达 picsl,需要通过网关才能到达 compute-0-0。这可能不是您所期望的,并且不会起作用。

根据我目前看到的信息,解决方法是将文件服务器 10.x 接口 (bond0) 的网络掩码更改为 255.255.0.0。但是,当前设置可能有原因,因此请与当地网络团队联系(如果有)。

相关内容