诊断随机网络延迟

诊断随机网络延迟

我无法诊断为 MediaWiki 网站提供服务的 6 台服务器 LAMP 集群上的一些随机延迟。虽然我们每秒提供大约 100 页,但服务器本身运行良好,负载低于 0.5,没有锁定的进程,没有分页,没有记录错误等......

  • 所有服务器都会出现延迟,而且是随机的:前一分钟还好,后一分钟就出现了。
  • 服务器上的 DNS 查找速度会随机变慢。例如,time nslookup google.com随机变化时间从几毫秒到几秒不等,有时甚至会完全超时。虽然我们在集群内部使用 IP 地址,但这可能是根本问题的征兆。我们没有运行自己的 DNS 服务器。
  • Apacheserver-status页面会随机滞后或超时。使用ab服务器之间的基准测试显示,一些加载有时需要 3000 毫秒(几乎准确)。server-status在本地服务器本身上进行基准测试通常不会出现任何问题(在几百次测试中,只有一次显示滞后)。

服务器位于交换机和防火墙后面,我无法访问,因此我不知道它们的设置或状态。虽然我们的负载比正常情况下要重,但 2 Mbps 的传入流量和 20 Mbps 的传出流量不应该给交换机或防火墙带来压力,不是吗?我的感觉是,这是交换机/防火墙或 ISP 上层的东西(如 DNS)的问题,但无法确认。

我需要一些其他测试或方法来诊断这种滞后,以尝试缩小最终原因。

答案1

问题原来是防火墙设置了 10,000 个连接的硬性限制。追踪这一问题的困难主要是因为无法访问防火墙,也无法说服服务提供商确实存在问题。

答案2

诊断问题几乎总是需要采取某种形式的监控。

推出类似开放网络管理系统地图绘制者仙人掌,或者如果你绝望纳吉奥斯,并在发现问题时查看流量、系统负载等。监控系统提供的信息可能会帮助您找出问题所在。

相关内容