问题:从多个位置并行进行 SSH/HTTP 远程连接超时,但不是PING,为什么?
问题:有一个 Web 服务器,其远程连接在 ssh/http 连接中大约有 50% 的时间会超时,但是不是ping。停机/正常运行时间不规律,持续时间为 5-20 分钟。我通过两个分布式监控服务进行了检查,日志验证了我在本地看到的内容。问题已经持续了 4-5 天,每天 24 小时。
可能的问题:
- * 我应该在资源服务器上运行哪些测试?
- * 我应该运行哪些测试来记录来自服务器的出站连接?
- * 我应该远程运行哪些测试?
- * 我应该用 Google 搜索哪些关键词或短语?
- * 我还应该问哪些问题?
- * 我还应该提供哪些其他信息?
使用权:
- * 我有服务器的远程管理员访问权限,但没有物理访问权限。
系统:
- * Linux-CentOS-5.X,Apache-2.X
- * 未知虚拟机,但同一网络上的其他系统没有远程连接问题
网络:
- * 网络信息未知,但同一网络上的其他系统没有远程连接问题
提前致谢!!!
_________________
最近更新 (1):“在这些中断期间,您的服务器是否仍响应 ping?”@Greg - 是的,ping 正在工作... :-) ...但在这些中断期间,ssh/http 同时关闭。此外,所有测试都是通过静态 IP 完成的。IP 地址多年来一直属于 IP 块,但只是分配给服务器。
最近更新 (2):我发出的 PING 似乎使 ssh/http 连接处于关闭状态。从分布式计算机网络每 5 分钟自动执行 10 次 PING。在接下来的 10 小时内保持 PING 开启,以查看 ssh/http 是否保持关闭状态;这将是一个新的模式。
最近更新 (3):因此,就 SUDO 用户而言,我无法查看“/var/log/messages”或 Apache 日志。没有尝试查看其他日志。
答案1
“ping” 仅测试 TCP/IP 堆栈的第 3/4 层,其中 SSH 和 HTTP 实际上是在 7 层中运行的应用程序。应用程序可能会发生故障或过载,而 TCP/IP 堆栈仍可继续运行。话虽如此,可能需要检查的一些方面包括:
- 记录应用程序的连接(可能从一个或多个遥控器重复发生)
- 应用程序及其支持/辅助应用程序的利用
- 在比较记录条件/结果时停止并重新启动应用程序(如果可能/实用)
- 检查防火墙日志
- 运行 AWSTATS 来发现可能与超时事件或日志记录相吻合的 HTTP 趋势
HTTP 和 SSH 超时是否同时发生?如果是这样,匹配日志还可能产生有关可能共同的事件/活动的额外提示。
答案2
用户空间已损坏。内核可以响应 ping,但用户空间已卡住,因此没有应用程序可以从套接字接收数据。
您正在等待重新启动的时间长度(也许看门狗在这里帮忙?),因此在此期间会有一小段时间 ICMP ping 不可达的情况。
系统日志显示什么?/var/log/messages 和朋友?
答案3
运行top
以检查内存、交换空间和进程数。您有交换吗?如果没有,请至少添加基于文件的交换。
如果您的 Apache 进程数持续增长,那么您可能需要暂时减少进程数。这可能是对 Apache 的拒绝服务攻击。
您可以使用 netstat 来监视入站和出站的连接。 netstat -nt | wc -l
应该有一个相对稳定的数量。
尝试搜索拒绝服务和内存泄漏。