GKE:指标服务器崩溃循环(来自 r/googlecloud 的交叉发布)

GKE:指标服务器崩溃循环(来自 r/googlecloud 的交叉发布)

我有几个(<10)个 gke 集群,除了一个之外,其他都处于相同状态,我不知道发生了什么以及为什么会发生。我希望找到一个能解决同样问题的人 :)

前段时间,我注意到我们的 HPA 停止工作了,无法从 pod 读取指标。长话短说,我们的名为“metrics-server-v0.5.2-*”的 pod 崩溃了,输出了如下堆栈跟踪:https://nopaste.net/aA5rwAeBWI和这个:https://nopaste.net/3uQsD6EDfA

我尝试重新启动部署,但没有成功。我不明白为什么其中一个集群(最先创建的集群)正在运行...

从 r/googlecloud (reddit) 来看,似乎承认这与我们的工作负载没有特别的关系。

所有集群都更新到同一版本:v1.24.12-gke.500,并由 terraform 资源创建。

你们有人有什么指点吗?

谢谢。

相关内容