是否知道一种可以建立基准并测量/警告差异的基础设施监控工具?

是否知道一种可以建立基准并测量/警告差异的基础设施监控工具?

我正在寻找一个基础设施资源监控工具,在谷歌搜索了一天却无功而返之后,我希望有人能帮我找到它。我大约 6 个月前读过这篇文章(我“认为”我是在 hackernews 上找到的),但现在我找不到它的链接了。

本质上,此监控工具只是对所有内容进行基准测试,了解基础设施的使用模式,然后提醒您这些模式的变化。随着时间的推移,随着系统不断学习,曾经的变量被重新学习为一种模式。

Riverbed 公司在其 Cascade 产品中也有类似功能,但它们只关注网络流量。有人有用于服务器资源监控的功能,但我没有找到。

还有人记得最近读过有关这个新产品的文章吗?

答案1

在使用 Nagios 实施监控系统多年之后,我开始质疑这种工具除了用于一组狭窄的服务之外的有效性。

我们使用的大多数系统在典型的一天/一周内使用特性变化很大。有些系统在周一非常繁忙,有些在周三非常繁忙,等等。有些系统在白天繁忙,而有些系统在夜间繁忙,等等。

我可以想象这样一个系统可以让 25% 的系统正确运行,或者在大部分时间内让某些参数(如磁盘或内存空闲)正确运行,而其他参数(如 CPU 或网络利用率)在我看来才是真正的挑战。

答案2

存在一种算法,称为Holt-Winters 时间序列预测算法;它可用于分析时间序列数据并检测异常,即使时间序列数据具有周期性波动(例如每日峰值)。rrdtool将其实现为“HWPREDICT”RRA,它在监控时收集其他数据以实现该算法并确定阈值。

可以使用 Holt-Winters 分析根据实际数据趋势(而不是先验配置)动态确定阈值。$work 有一个完全自定义的系统,我们可以在其中将 HWPREDICT 数据添加到特定 RRA,然后在超过阈值时生成警报。它运行良好,但正如我所说,它是完全自定义的。我很想知道是否有现有的产品可以为我们做到这一点。

相关内容