有一个Linux盒子。
有一个用于存储的 Netapp 设备出现故障。
它们位于同一个子网中,因此理论上不需要路由。
问题:有时我们可以从 Linux 机器访问 netapp 的 LIF,有时则不能(根据 tcpdump,它只是没有响应)。
问题:什么可能导致这个问题?
更新#1:创建关于何时好、何时坏的统计数据,其中包括:
while true; do (nc -w 1 -z IPADDRESSHERE 22 && printf "good\t") || printf "bad\t"; date; sleep 1; done > testing.txt
因此,每一秒,netcat 都会尝试从 Linux 机器连接到 Netapp。
# grep -w bad testing.txt | wc -l; grep -w good testing.txt | wc -l
520
480
#
尝试 1000 次后,我们成功了 520 次 SSH,其中 480 次超时,所以大约 52% 是好的,大约 48% 是坏的。也许是 50-50%?可能是某种类似故障转移的问题?
更新#2:另一件有趣的事情是,损坏的 Netapp 无法 ping 通,而所有其他 Netapp 均可 ping 通。