GCP 监控警报 - 您可以对度量属性取平均值吗？

2024-6-1 • tag-icon

我们正在使用 Bluemedora BindPlane 将内部部署利用率指标发送到 GCP。

在这样做时，我们尝试创建一个 GCP 监控警报，如果服务器的 CPU 百分比达到并保持在 95% 以上 15 分钟，该警报就会提醒我们。

但我们会收到每个核心的警报事件。

是否有人足够熟悉 MQL，以便他们可以提供如何重组下面的内容，以便获得跨核心的平均值，而不是每个核心的事件？

fetch generic_node
| metric 'external.googleapis.com/bluemedora/linux_host/cpu/utilization'
| filter (resource.node_id == 'hdn-tst-app06')
| group_by [metric.core], [value_utilization_mean: mean(value.utilization)]
| every 15m
| condition value_utilization_mean > 95 '%'
| window 15m

答案1

我将尝试使用另一个添加辅助聚合group_by。

| group_by [metric.core],
    [value_utilization_mean_mean: mean(value_utilization_mean)]
| group_by [],
    [value_utilization_mean_mean_mean: mean(value_utilization_mean_mean)]
| condition value_utilization_mean > 95 '%'

答案1

相关内容