GKE 节点升级失败

GKE 节点升级失败

我希望这是正确的提问地点,我已按照 GCP 控制台上的所有支持链接来到这里!

过去,我经常使用 GCP 控制台使我的 GKE k8s 主服务器和节点保持最新状态。这一切都运行顺畅……直到现在。我不知道为什么。我找到了一些 GKE Stackdriver 日志,但似乎没有什么明显的迹象表明为什么会失败。我可以毫无问题地升级主服务器,但是当出现升级节点的选项时(集群中只有一个节点),升级开始,然后几秒钟后停止。节点保持在同一版本上,我再次收到通知,说可以升级。

我还注意到我不再exec运行 Pod。错误是:

Error from server: error dialing backend: No SSH tunnels currently open. Were the targets able to accept an ssh-key for user "gke-<random-digits>"?

我不确定这是否相关。

我已阅读过此内容:https://cloud.google.com/kubernetes-engine/docs/troubleshooting#kubect_commands_hang但没有帮助。

我尝试重置节点,但也没有效果。我看到的唯一影响是我的一个容器由于 I/O 错误无法再挂载卷!

有什么想法从哪里开始吗?!

编辑
当前主版本:1.11.6-gke.0
当前节点版本:1.10.7-gke.2

上次操作来自:gcloud beta container operations describe

endTime: '2019-01-15T23:14:21.936649805Z'
name: operation-1547594061714-c2750b4c
operationType: UPDATE_CLUSTER
selfLink: https://container.googleapis.com/v1beta1/projects/348462677705/zones/europe-west2-a/operations/operation-1547594061714-c2750b4c
startTime: '2019-01-15T23:14:21.714859214Z'
status: DONE
targetLink: https://container.googleapis.com/v1beta1/projects/348462677705/zones/europe-west2-a/clusters/clubbed-cluster
zone: europe-west2-a

上述UPDATE_CLUSTER操作每天每分钟都在持续发生!

答案1

恢复正常!升级到 1.11.6-gke.2 后,节点升级失败和 SSH 失败均已解决。

这可能与 2019 年 1 月 14 日提到的 Endpoint API 修复有关发行说明

感谢您的支持!

相关内容