GKE：指标服务器崩溃循环（来自 r/googlecloud 的交叉发布）

2024-6-2 • tag-icon

我有几个（<10）个 gke 集群，除了一个之外，其他都处于相同状态，我不知道发生了什么以及为什么会发生。我希望找到一个能解决同样问题的人 :)

前段时间，我注意到我们的 HPA 停止工作了，无法从 pod 读取指标。长话短说，我们的名为“metrics-server-v0.5.2-*”的 pod 崩溃了，输出了如下堆栈跟踪：https://nopaste.net/aA5rwAeBWI和这个：https://nopaste.net/3uQsD6EDfA。

我尝试重新启动部署，但没有成功。我不明白为什么其中一个集群（最先创建的集群）正在运行...

从 r/googlecloud (reddit) 来看，似乎承认这与我们的工作负载没有特别的关系。

所有集群都更新到同一版本：v1.24.12-gke.500，并由 terraform 资源创建。

你们有人有什么指点吗？

谢谢。

相关内容