服务器无法访问的原因，如何排查？

Question 1

服务器实际上是Azure Cloud的一部分

该错误可能发生在 ssh 客户端/mongo 客户端和服务器之间的网络路径上的任何位置。这可能代表大量您无权访问的组件。

您的下一个停靠点（检查是否重新启动后）应该是 Microsoft 的支持（祝您好运）。

同时：

检查系统日志中是否有与网络设备相关的任何消息。

如果这没有发现任何问题，那么您需要设置一些远程监控来跟踪中断情况。除了为支持人员提供有用的信息来调查问题之外，它还为您提供了一种摆脱合同并切换到其他提供商的方法。

Answer

服务器实际上是Azure Cloud的一部分

该错误可能发生在 ssh 客户端/mongo 客户端和服务器之间的网络路径上的任何位置。这可能代表大量您无权访问的组件。

您的下一个停靠点（检查是否重新启动后）应该是 Microsoft 的支持（祝您好运）。

同时：

检查系统日志中是否有与网络设备相关的任何消息。

如果这没有发现任何问题，那么您需要设置一些远程监控来跟踪中断情况。除了为支持人员提供有用的信息来调查问题之外，它还为您提供了一种摆脱合同并切换到其他提供商的方法。

Question 2

根据您的问题，我猜测不存在性能或可用性问题，这似乎是网络连接问题，可能与您的客户端或目标服务器上的防火墙有关。

可以有多种调查方法。

检查 ping 响应

从客户端到服务器以及从客户端到服务器traceroute and tracepath命令的跟踪路由

尝试通过 FQDN 和 IP 地址进行连接，并检查中的名称服务器条目/etc/resolv.conf ，确保它们是 ipv4 地址。

检查服务器上的 sshd 配置

检查tcp连接超时设置

禁用防火墙和se-linux一段时间，然后重试，如果与此相关。

检查/var/log/messages和/var/log/secure或/var/log/auth等中/var/log/audit/audit.log 的一些线索

使用tcpdump检查数据包，可能是由于tcp keepalive问题造成的。

Answer