使用 Prometheus 监控 SLA/SLO/SLI

使用 Prometheus 监控 SLA/SLO/SLI

我对使用 Prometheus 监控 SLI 指标进行了大量研究。我只找到了如何使用 Kubernetes 监控集群。我希望在这里找到一个简单监控的答案。

我还想知道使用 RED(速率、错误、持续时间)方法或 USE(利用率、饱和度、错误)方法哪个更好?

如果可能的话,请给出一些例子(例如:)1-clamp_max(sum(rate(wmi_cpu_interrupts_total[2m])),1)对于 4 个最标准的指标:CPU/DISK/网络/内存

相关内容