概括:
我在多个 Kubernetes (k8s) 集群中使用 Cadvisor 和 Prometheus 来监控网络流量使用情况。我在查询中使用 container_network_receive_bytes_total 指标来计算总网络流量使用情况。但是,我在其中一个集群中遇到了一个不寻常的问题。
问题:
在我的一个集群中,我有一个非生产数据库,它已经顺利运行了 20 天。然而,从昨天开始,container_network_receive_bytes_total 指标显示使用量大幅增加,尽管我确信负载没有增加。这个问题并不是孤立的。我多次遇到过类似的情况,它们似乎都发生在这个特定的集群中。我尝试了多种方法来重现它,但都无法做到。
这是我正在使用的查询:
(
sum (
increase (
container_network_transmit_bytes_total{namespace="TEST"}[2d]
)
) by (node, cluster, namespace, pod)
) / 1000000000
这是峰值: 这里
我相信该问题的根本原因在于该集群,但我正在寻求有关如何排除故障并解决该问题的指导或线索。