我们有 3 台专用服务器,使用 openVZ 分成多个 VPS。我们使用 munin 监控生产站点的 VPS,并监控某个 VPS,以确保它在发生故障时重新启动服务。
问题是我们需要一种更好的方法来监控我们所有的服务器,因为我们有多达 14 个 VPS,我们希望有一个中心枢纽,在那里我们不仅可以看到 munin 收集的数据,还可以看到网络和服务性能的更多额外统计数据。
我们的一些要求:
- 失败时发送短信通知(能够设置某些自定义验证)
- Apache error_log 和其他一些日志分析器。
- 必须是集中的(意味着一个服务器和几个收集数据的节点)。
- 不需要易于安装但易于维护。
- 需要免费
有人向我推荐了 nagios 和 splunk,你觉得怎么样?谢谢,
答案1
我有一个类似的设置,只是使用了 Xen。我对以下组合非常满意:
- 纳吉奥斯用于警报(使用 PNP 进行一些精简图形绘制,使用 Nagviz 进行服务状态仪表板)
- 神经节用于系统历史绘图
- 操作系统安全评估中心作为 HIDS,同样重要的是作为集中日志记录的收集器
- 附注:有一个用于 OSSEC 的 Splunk 插件,可以集成这两个工具非常好吧,我正在等他们将它移植到 Splunk v4。
- Splunk最后,一旦一些 Splunk 插件迁移完毕,我们计划使用 Splunk 对一些日志进行预过滤(以避免超出免费版本的上限)
我希望分享我们的监控设置能够帮助您:-)
以下是一些有用的链接:
http://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-1/index.html
https://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-2/
http://www.ossec.net/main/splunk-ossec-integration
更新:
我忘了说了,我们也使用了 Matt Simmons Nagios 配置布局,可以在这里找到http://www.standalone-sysadmin.com/blog/2009/07/nagios-config/
这种布局使我们的 Nagios 配置更加合理且更易于维护(感谢 Matt!)
答案2
我非常成功地扎比克斯,它可以在一个套餐中满足您的所有要求。
(来源:zabbix.com)
最困难的部分是获取 apache 日志监控,但 Zabbix 是可扩展的,因此您可以使用 LogWatch 或其他 perl 脚本来获取数据。
答案3
我喜欢 OpManager,它在一定数量的节点内是免费的。它能完成上述所有功能,而且安装和维护起来非常容易。