我们最近遭遇了一次全站断电(UPS 电量耗尽)。一切恢复后,我们遇到了一些奇怪的网络行为。
看起来好像服务器只能 ping 网络上的另一台机器,并且所有网络共享都不可用。 (如果我们重新启动工作站,这台机器就会发生变化)
当前状态:
- 该服务器可以 ping 通网络上的一台机器,也可以被 ping 通。
- DNS 主机名在 PING 时解析为正确的 IP(来自所有机器)
- 所有机器的服务器网络共享(NFS/SMB)都已关闭(即使是可以 ping 通的机器)
- NFS 和 SMB 服务正在运行
- 任何当前能够 ping 通的机器都可以通过 ssh 访问服务器。
- 服务器可以不是可以 ping 通中间交换机吗?
- 工作站可以 ping 所有中间硬件
环境:
DNS/Auth - Active Directory(所有静态 IP / 无 DHCP)Debian 6.3.0(通过 4 个绑定的 40gE 连接,全部启动)服务器 <-> Mellanox 交换机 sn2100 <-> Mellanox 光纤 10G(sn1016)<-> 工作站
混合操作系统工作站(OSX 10.14 及更高版本、Windows 10、CentOS 7)
怀疑:
目前怀疑 sn2100 上的路由存在某种问题,但其他设备可以正常通过它路由。
答案1
所以@用户1686这是正确的调试路径。
解决方案:
在开始拆分 Mellanox 交换机中的绑定连接后,我注意到每个端口的 LAG 模式设置都混在一起了。一个是灰色的,一个是静态模式,其余的都是正确的。这要么是在电源故障期间损坏的,要么是系统回滚到正在构建 LAG 的状态。
我从 LAG 中删除了所有端口,将每个端口的 LAG 模式更新为 LACP Active,然后重新创建了 LAG。
机器可以立即 ping 服务器,并且只需要重新安装 NFS 共享即可恢复。