是否有一个好的监控、警报工具,具有故障单系统 + 重复数据删除和智能警报抑制功能?

是否有一个好的监控、警报工具,具有故障单系统 + 重复数据删除和智能警报抑制功能?

我已经成为 nagios 用户很长时间了。

最近,随着我们服务器群规模的扩大,来自 nagios 的警报数量也随之增加。信噪比变得非常低。例如,当一个常见服务出现故障时,所有使用该服务并因此对其进行检查的负载平衡 Web 服务器都会开始发出警报。再加上可能来自该服务的系统警报以不同的顺序出现,导致了大量噪音。

我可以花很多时间确保我的 nagios 配置良好,但它变得越来越难以管理。我正在寻找一个可以进行重复数据删除和智能警报抑制的工具(或 nagios 插件)。此外,我希望在故障单系统中跟踪“问题”/中断 - 这样任何人都可以在一个地方很好地了解问题发生的情况。还可以查看存档。

是的,我可以在 Nagios 中做到这一点 - 但效果不是很好。

在寻找的过程中我发现了大量的工具(http://www.slac.stanford.edu/xorg/nmtf/nmtf-tools.html#public)但似乎没有人谈论重复数据删除、问题跟踪和管理等问题

答案1

我认为最好的选择是集成了 RT 或 OTRS 的 OpenNMS。与 Nagios 不同,它是一个完整的 SNMP 管理解决方案,重点关注 FCAPS(故障/配置/会计/性能/安全管理)。它如何很好地处理这些类别中的每一个,取决于实施者。对于希望从 Nagios“升级”并拥有一个 Cacti 服务器来做类似事情的人来说,这是一个很好的解决方案。性能和故障数据的集成绝对是必不可少的。文档有点落后于产品的当前状态,但我最近一直在亲自研究它。

如果您想尝试一下,请继续按照 opennms.org wiki 上的快速入门说明进行操作,但在“发现”处停止,并查看新配置的功能白皮书。它也是一个很棒的迁移工具。

它提供的基于事件的系统会触发警报面板的警报和通知...通知。这些可以是通过星号、页面、电子邮件、推特等拨打的电话。当您或值班人员收到通知时,您可以使用工作“确认”回复电子邮件,确认通知并更新您的票证,包括开始时间等。

通知和警报的分离对于您的重复数据删除请求来说是一项很棒的功能。根据发生的情况,您可以通过减少键减少这些警报,并且仅在阈值时收到通知(但仍会触发所有警报,以便您拥有数据)。有一些高级关联功能,但我还没有真正深入研究过。

答案2

我认为我建议的第一件事是查看依赖关系。当您的通用服务发生故障时,可以将使用该通用服务的 Web 服务器设置为依赖关系,这样您只会收到通用服务的警报。如果其中一个 Web 服务器发生故障,而通用服务仍在响应,您将收到 Web 服务器关闭消息。

通常,您会设置 Nagios,以便交换机后面或特定断路器上的所有机器都具有依赖关系。当该交换机发生故障时,无需提醒您该机架上的所有 38 台机器也已停机。

如果遇到不稳定,您可以稍微改变升级,这样您的服务指标仍然能够维持,但是,当服务不稳定时,您不会频繁地被寻呼。Nagios 的不稳定检测效果不是很好,但也不是太差。

至于票务,您可以编写一个事件通知脚本,该脚本会自动导入到故障票务系统中,就像我们所做的那样(客户会获取一些导出的数据以供记录),但是,我还没有研究过将其集成到现有系统中。

相关内容