我有几个(<10)个 gke 集群,除了一个之外,其他都处于相同状态,我不知道发生了什么以及为什么会发生。我希望找到一个能解决同样问题的人 :)
前段时间,我注意到我们的 HPA 停止工作了,无法从 pod 读取指标。长话短说,我们的名为“metrics-server-v0.5.2-*”的 pod 崩溃了,输出了如下堆栈跟踪:https://nopaste.net/aA5rwAeBWI和这个:https://nopaste.net/3uQsD6EDfA。
我尝试重新启动部署,但没有成功。我不明白为什么其中一个集群(最先创建的集群)正在运行...
从 r/googlecloud (reddit) 来看,似乎承认这与我们的工作负载没有特别的关系。
所有集群都更新到同一版本:v1.24.12-gke.500,并由 terraform 资源创建。
你们有人有什么指点吗?
谢谢。