LAMP 服务器监控脚本中应包含哪些内容

LAMP 服务器监控脚本中应包含哪些内容

我们有几个 LAMP 服务器,每个服务器都运行我们编写的特殊脚本,用于报告各种系统指标。报告每天运行,目的是能够快速检查并发现系统上的任何潜在问题。

每个 LAMP 服务器都运行 RedHat Enterprise 并托管 40-50 个(并且还在不断增加)面向公众的网站(HTML、自定义 PHP 和 Drupal 网站的混合)。

脚本当前包含的内容如下:

  1. 服务器负载和用户登录
  2. 最近 10 次登录和时间
  3. 磁盘使用情况
  4. 来自各种日志的最后 10 行(qmail、mysql、安全、apache 错误、包)
  5. 每个帐户的用户名、端口和上次登录时间
  6. 顶部倾卸

该报告已经很长了,所以我希望尽可能简洁。

您是否发现其他指标也应该包含在此类脚本中?您会从此列表中删除任何指标吗?

谢谢,团队。

答案1

我会进行测试以确保您的环境正常。测试 PHP 是否正常运行(编写一个可以回显某些内容的简单 PHP 脚本,使用 wget 确保收到预期结果)、数据库(只需连接并确保可以看到数据库)等。

此外,如果您对这些进行 SSL,请检查证书是否过期、是否发生意外更改等。

答案2

我建议使用自动收集工具,例如仙人掌它将收集并报告一段时间内的各种指标。这将使您能够轻松发现趋势并规划未来。John Allspaw 有一本很棒的书,名为容量规划的艺术这本书对这个主题进行了非常详细的介绍。我强烈推荐任何需要跟踪服务器指标的人阅读这本书。

答案3

我的建议是不要经常报告这些事情。你会被大量信息淹没,而人性决定了当问题确实出现时,你确实可能会忽略它。

相反,只有当其中一个变量异常时才报告。也许一天中更频繁地报告。您可以使用 Cacti 等监控和图形系统,它会提醒您此类变化并保存历史数据以供将来参考。

答案4

您确实需要持续监控。我们使用 Nagios 每分钟检查我们的每个网络服务器几次,以确保它们仍在运行。我们还监控我们的数据库和我们能想到的任何其他东西。随着时间的推移,您将遇到中断并发现您应该监控的东西。

监控的另一面是某种图形。我们使用 Munin,但 cacti 或 ganglia 也是常见的解决方案。图形对于发现系统中的趋势非常有用。

相关内容