监控生产服务器

监控生产服务器

我们有 3 台专用服务器,使用 openVZ 分成多个 VPS。我们使用 munin 监控生产站点的 VPS,并监控某个 VPS,以确保它在发生故障时重新启动服务。

问题是我们需要一种更好的方法来监控我们所有的服务器,因为我们有多达 14 个 VPS,我们希望有一个中心枢纽,在那里我们不仅可以看到 munin 收集的数据,还可以看到网络和服务性能的更多额外统计数据。

我们的一些要求:
- 失败时发送短信通知(能够设置某些自定义验证)
- Apache error_log 和其他一些日志分析器。
- 必须是集中的(意味着一个服务器和几个收集数据的节点)。
- 不需要易于安装但易于维护。
- 需要免费

有人向我推荐了 nagios 和 splunk,你觉得怎么样?谢谢,

答案1

我有一个类似的设置,只是使用了 Xen。我对以下组合非常满意:

  • 纳吉奥斯用于警报(使用 PNP 进行一些精简图形绘制,使用 Nagviz 进行服务状态仪表板)
  • 神经节用于系统历史绘图
  • 操作系统安全评估中心作为 HIDS,同样重要的是作为集中日志记录的收集器
    • 附注:有一个用于 OSSEC 的 Splunk 插件,可以集成这两个工具非常好吧,我正在等他们将它移植到 Splunk v4。
  • Splunk最后,一旦一些 Splunk 插件迁移完毕,我们计划使用 Splunk 对一些日志进行预过滤(以避免超出免费版本的上限)

我希望分享我们的监控设置能够帮助您:-)

以下是一些有用的链接:

http://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-1/index.html

https://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-2/

http://www.ossec.net/main/splunk-ossec-integration

更新:

我忘了说了,我们也使用了 Matt Simmons Nagios 配置布局,可以在这里找到http://www.standalone-sysadmin.com/blog/2009/07/nagios-config/

这种布局使我们的 Nagios 配置更加合理且更易于维护(感谢 Matt!)

答案2

我非常成功地扎比克斯,它可以在一个套餐中满足您的所有要求。

替代文本
(来源:zabbix.com

最困难的部分是获取 apache 日志监控,但 Zabbix 是可扩展的,因此您可以使用 LogWatch 或其他 perl 脚本来获取数据。

答案3

我喜欢 OpManager,它在一定数量的节点内是免费的。它能完成上述所有功能,而且安装和维护起来非常容易。

答案4

Nagios 应该是一个不错的选择。首先,它是模块化的,几乎可以满足您的所有期望。此外,它还获得了一些不错的奖项

编辑:别忘了检查这个答案

相关内容