Kubernetes 集群中的 Cadvisor container_network_receive_bytes_total 指标激增

Kubernetes 集群中的 Cadvisor container_network_receive_bytes_total 指标激增

概括:

我在多个 Kubernetes (k8s) 集群中使用 Cadvisor 和 Prometheus 来监控网络流量使用情况。我在查询中使用 container_network_receive_bytes_total 指标来计算总网络流量使用情况。但是,我在其中一个集群中遇到了一个不寻常的问题。

问题:

在我的一个集群中,我有一个非生产数据库,它已经顺利运行了 20 天。然而,从昨天开始,container_network_receive_bytes_total 指标显示使用量大幅增加,尽管我确信负载没有增加。这个问题并不是孤立的。我多次遇到过类似的情况,它们似乎都发生在这个特定的集群中。我尝试了多种方法来重现它,但都无法做到。

这是我正在使用的查询:

(
    sum (
        increase (
            container_network_transmit_bytes_total{namespace="TEST"}[2d]
        )
    ) by (node, cluster, namespace, pod)
) / 1000000000

这是峰值: 这里

我相信该问题的根本原因在于该集群,但我正在寻求有关如何排除故障并解决该问题的指导或线索。

相关内容