我们开始使用 Pingdom 监控我们的网络服务器,发现我们每周日 UTC 时间 0:00 都会有几分钟的停机时间。
测试每分钟运行一次,并检查端口 80 是否返回成功的 HTTP 响应(代码 200)。测试因超时(30 秒后无响应)而失败。
以下是我们已经检查过的内容 – 但均未成功:
由于我们的 Web 服务器运行在负载均衡器后面,因此我在负载均衡器的公共 DNS 和 Web 服务器的公共 DNS 上设置了 Pingdom 测试,以查明 AWS 负载均衡器是否存在问题——两个测试都返回相同的结果
我们在网络服务器上设置了 Munin。即使发生故障后一切看起来都很好。由于上次故障仅持续了 2 分钟,我认为 Munin 无法捕获潜在问题(它每 5 分钟才检查一次)
我检查过/var/log/apache2/error.log和/var/log/syslog可疑条目
我检查过/etc/cron.weekly和/etc/crontab可疑条目
我使用这种方法搜索了在 0:00 到 0:15 期间创建或最后修改的文件:
touch -t 201209020000 开始
touch -t 201209020015 结束
查找 / -newer 开始 -and ! -newer 结束(什么都没找到)
有人遇到过类似的问题吗?有什么建议可以帮你找出这种行为的原因吗?
这是在 AWS m1.large 实例上运行的 Ubuntu 10.04 LTS。
谢谢!
答案1
有报告称,update-apt-xapi 进程在几分钟内占用了大量 CPU。它每周运行一次。如果常规负载也很高,它可能会导致您的机器停机。该命令运行 update-apt-xapian-index 来更新软件包索引。
请参阅此处的一些解决方法提示:http://empoccz.wordpress.com/2012/01/02/ubuntu-update-apt-xapi-takes-lot-of-cpu-usage-ii/或者https://askubuntu.com/questions/79481/is-100-cpu-usage-harmful-while-update-apt-xapi-runs