我们有几个 LAMP 服务器,每个服务器都运行我们编写的特殊脚本,用于报告各种系统指标。报告每天运行,目的是能够快速检查并发现系统上的任何潜在问题。
每个 LAMP 服务器都运行 RedHat Enterprise 并托管 40-50 个(并且还在不断增加)面向公众的网站(HTML、自定义 PHP 和 Drupal 网站的混合)。
脚本当前包含的内容如下:
- 服务器负载和用户登录
- 最近 10 次登录和时间
- 磁盘使用情况
- 来自各种日志的最后 10 行(qmail、mysql、安全、apache 错误、包)
- 每个帐户的用户名、端口和上次登录时间
- 顶部倾卸
该报告已经很长了,所以我希望尽可能简洁。
您是否发现其他指标也应该包含在此类脚本中?您会从此列表中删除任何指标吗?
谢谢,团队。
杰
答案1
我会进行测试以确保您的环境正常。测试 PHP 是否正常运行(编写一个可以回显某些内容的简单 PHP 脚本,使用 wget 确保收到预期结果)、数据库(只需连接并确保可以看到数据库)等。
此外,如果您对这些进行 SSL,请检查证书是否过期、是否发生意外更改等。
答案2
答案3
我的建议是不要经常报告这些事情。你会被大量信息淹没,而人性决定了当问题确实出现时,你确实可能会忽略它。
相反,只有当其中一个变量异常时才报告。也许一天中更频繁地报告。您可以使用 Cacti 等监控和图形系统,它会提醒您此类变化并保存历史数据以供将来参考。
答案4
您确实需要持续监控。我们使用 Nagios 每分钟检查我们的每个网络服务器几次,以确保它们仍在运行。我们还监控我们的数据库和我们能想到的任何其他东西。随着时间的推移,您将遇到中断并发现您应该监控的东西。
监控的另一面是某种图形。我们使用 Munin,但 cacti 或 ganglia 也是常见的解决方案。图形对于发现系统中的趋势非常有用。