我是一名项目经理,负责处理复杂的 Web 应用程序,该应用程序位于世界不同地区的 3 个不同集群(服务器)上。每个集群上的代码都相同。
但是 Google 页面加载时间在各个集群之间是不同的,并且偏差很大 - 在集群 A 上为 2.5 秒(这是可以接受的),在集群 B 上为 6 秒(这远远超出了公司的 SLA)
我们已经实施了 NAGIOS http 检查以查看它会显示什么,并且数字与谷歌页面加载时间非常相似。
我们的管理员使用常规 tcptraceroutes 排除此问题,并显示从 0.5 秒到 1.8 秒的数字,经过判断后没有问题与网络或服务器。
问题是:
1)tcptraceroute 检查是否与解决此类问题有关?
2)从管理员角度来说,还有其他方法可以解决页面加载时间问题吗?
3) 我建议管理员继续调查此问题的主要理由是,在一个集群上,页面加载时间为 2.5 秒,而在另一个集群上,页面加载时间为 6 秒。(在 GA 和 NAGIOS 检查中)这还不足以让管理员继续调查吗?
谢谢您,如果我用如此模糊的问题触动了某人的感情,我深感抱歉。
答案1
tcptraceroute 检查是否与解决此类问题有关?
检查监控点和远程服务器之间的网络路径可能很有用。
管理员还有其他方法可以解决页面加载时间问题吗?
我会首先确认两个集群是否完全相同,然后开始调查。如果它们不完全相同,那么我会努力了解它们有何不同,这些差异会产生什么影响,以及它们是否会以观察到的方式影响应用程序。
我会检查日志来查看应用程序/集群/操作系统等是否记录了任何有趣的内容。
我会在集群服务器上设置资源监控,看看是否存在任何不正常的情况等等。
确实是一般的基本系统管理和诊断。
我也会让开发人员参与其中。也许他们需要对应用程序进行检测,以便它能够提供更好的诊断和日志信息。例如,如果应用程序正在与数据库通信,也许他们需要能够记录查询所用的时间。