有人在大规模生产环境中使用 Splunk 吗?

有人在大规模生产环境中使用 Splunk 吗?

我一直在 splunk.com 上观看视频,真的很难相信人们可以免费获得所有这些功能,我脑海里仍然有一个“陷阱在哪里?”的问题。

因此,如果任何在生产中实际使用 Splunk 的人愿意分享他们的经验,或许强调它相对于 Nagios 的优势,那就太好了?

提前致谢。

答案1

我们每天使用它来处理 7+GB 的数据,但我们为此付费。很多。我认为我们获得了一些学术折扣,但大多数情况下,我们设法证明花这笔钱是合理的,因为它让审计员对让某人/某物查看我们的日志感到满意。

我们使用 nagios。我们已为 nagios 配置了一些已保存的搜索,这些搜索调用脚本来生成 nagios 警报或创建逆转录票证。因此,例如,5 分钟内(跨所有服务器)超过 X 次登录失败将生成警报。这是 nagios 无法独自完成的事情。

以前我们使用美国证券交易委员会来生成这些类型的警报,但效果不太好,有人仍然不得不时不时地尝试在 20GB 的文件上使用 grep。

我不确定我们是否还会生成任何 nagios 警报;我们已经将大部分(如果不是全部的话)警报转换为生成 RT 票证。nagios 警报模型对于基于日志分析的内容实际上并不适用,它更适合于状态可能是好是坏的事物,而不是可能需要调查的离散事件。

编辑:

是的,它确实让我们的生活变得轻松很多。这比尝试通过日志查找要好得多。我们有 Windows、Linux 和 Solaris 系统向它发送日志。

它是否像一些视频所暗示的那样神奇地找到您想要的内容?不,它有一些限制,您可能需要进行一些配置才能让它很好地处理特定类型的日志。而过于“有趣”的搜索可能需要阅读文档,然后等待几分钟,因为 splunk 服务器会不停地运转。但是,说真的,它很棒。从我所看到的情况来看,真的没有其他产品能与之媲美。

答案2

我使用过 Splunk 和 Nagios,它们有两个明显的不同。

Splunk 确实使搜索日志变得更加简单和容易。保存常见问题的搜索对于识别问题非常有用。我在不同位置有 2 个 Splunk 服务器,它们都使用免费版,因为定价超出范围,并且每日索引量不足以需要购买更多。

另一方面,Nagios 是一个出色的主动监控平台。我有一个 5 服务器分布式 Nagios 平台,用于监控多个地理位置。它与监控日志文件的 Splunk 非常不同,Nagios 可以编写服务检查插件来主动监控几乎所有事物,并允许您在出现问题时收到通知,以便您解决问题。

我发现两者结合起来会提供更好的画面,并且确实有助于维护网络。尤其是当这是一个团队而非个人的努力时。所有参与者都能够看到相同的画面。

答案3

它每天最多只能免费处理 500MB 的日志。我测试过它,即使你每天的处理量不超过 500MB,我也发现许多更“高级”的功能都需要真正的许可证。它还需要大量的硬件资源才能正常工作。

我知道有一家公司大规模使用它,但是花费也非常多(低端许可证要花费数千美元)。

它的功能也与 Nagios 不同。Splunk 似乎更适合跟踪趋势或寻找长期数据中的异常,而 Nagios 更适合立即做出反应。

答案4

Splunk 实际上并不解析日志数据,这使得很难甚至无法创建跨不同日志格式系统的报告。由于没有一致的分类法来进行关联,因此也无法进行实际关联。

相关内容