断电后,服务器无法 ping 多台机器。(所有网络共享不可用)

断电后,服务器无法 ping 多台机器。(所有网络共享不可用)

我们最近遭遇了一次全站断电(UPS 电量耗尽)。一切恢复后,我们遇到了一些奇怪的网络行为。

看起来好像服务器只能 ping 网络上的另一台机器,并且所有网络共享都不可用。 (如果我们重新启动工作站,这台机器就会发生变化)

当前状态:

  • 该服务器可以 ping 通网络上的一台机器,也可以被 ping 通。
  • DNS 主机名在 PING 时解析为正确的 IP(来自所有机器)
  • 所有机器的服务器网络共享(NFS/SMB)都已关闭(即使是可以 ping 通的机器)
  • NFS 和 SMB 服务正在运行
  • 任何当前能够 ping 通的机器都可以通过 ssh 访问服务器。
  • 服务器可以不是可以 ping 通中间交换机吗?
  • 工作站可以 ping 所有中间硬件

环境:

DNS/Auth - Active Directory(所有静态 IP / 无 DHCP)Debian 6.3.0(通过 4 个绑定的 40gE 连接,全部启动)服务器 <-> Mellanox 交换机 sn2100 <-> Mellanox 光纤 10G(sn1016)<-> 工作站

混合操作系统工作站(OSX 10.14 及更高版本、Windows 10、CentOS 7)

怀疑:

目前怀疑 sn2100 上的路由存在某种问题,但其他设备可以正常通过它路由。

答案1

所以@用户1686这是正确的调试路径。

解决方案:

在开始拆分 Mellanox 交换机中的绑定连接后,我注意到每个端口的 LAG 模式设置都混在一起了。一个是灰色的,一个是静态模式,其余的都是正确的。这要么是在电源故障期间损坏的,要么是系统回滚到正在构建 LAG 的状态。

我从 LAG 中删除了所有端口,将每个端口的 LAG 模式更新为 LACP Active,然后重新创建了 LAG。

机器可以立即 ping 服务器,并且只需要重新安装 NFS 共享即可恢复。

相关内容