哪种警报设置可以让我概览 Prometheus 警报状态?

哪种警报设置可以让我概览 Prometheus 警报状态?

我使用 prometheus 和 alertmanager 在警报触发时向 slack 发送消息。两者都在 Kube 中自托管。PII 问题阻止我使用托管仪表解决方案。

我正在寻找可以让我一目了然地看到所有警报当前状态的选项。目前,系统故障可以触发 1-20 条警报,表现为 1-40 条松弛消息(高警报和低警报各一条),而且噪音很大,我可能会错过一些东西。

我偏爱这样一种工具,它可以每十分钟发布一条松弛消息,并随着状态的变化不断对其进行编辑。

我尝试过 Grafana 仪表板,但发现它不实用,因为很少有人主动检查它。

你们如何有效地观察系统状态的健康状况?

答案1

无需特别关注 Prometheus,一个好的监控系统就能告诉你两个都方式:它会告诉你它认为你需要知道的内容,并让你尽可能快速、高效地找到你想知道的内容。

我个人更喜欢 NAGIOS,因为它的警报端非常复杂(多个警报渠道、停电时间段、确认和升级等),而且它有一些非常好的概要视图,让我可以一目了然地了解网络健康状况。

我个人最喜欢的是(a)“圆形气球”模式下的网络地图,它让我一眼就能看到运行近一千个服务检查的大约一百个节点的运行状况,以及(b)“未处理的服务问题”视图,它为我提供了一切目前我的网络还不正确。

任何工具两个都有效地(通知你为您提供概要)应该会有所帮助。尝试几个,直到找到适合您的一个。

相关内容