我们已经建立了一个 Google Kubernetes 集群,虚拟机数量从 2 台扩展到 5 台。集群上运行着 5-6 个 Pod/容器。我们还设置了 ngnix 进行路由,一切运行正常。
但是我们在使用 Google 集群时遇到了问题。它会自动重建,并且所有虚拟机也会重新创建,这会导致在其上运行的 Pod 出现问题。我们在集群软件更新设置中将发布渠道设置为无。我们假设这是由于 GKE 集群的软件升级而发生的。
请告知我们如何检查。
答案1
我们假设这是由于 GKE 集群软件升级而发生的。请建议我们如何检查它。
你的假设可能是正确的。它可能与自动升级功能就好像它只是由于自动缩放器,只有当你的集群缩放和再次扩大规模. 因此,您的虚拟机由于启用了自动升级功能而重新创建。
到检查现有节点池的自动升级状态, 跑步:
gcloud container node-pools describe node-pool-name \ --cluster cluster-name \ --zone compute-zone
在哪里:
node-pool-name
是节点池的名称。cluster-name
是包含节点池的集群的名称。compute-zone
是集群的区域。
autoUpgrade
并通过添加到上述命令来搜索您可以执行的操作| grep autoUpgrade
。
您可以验证日志中具体发生的时间,如这个答案或者您可以按照所述检查节点池升级状态这里。为了防止自动升级意外发生并导致工作负载可用性出现上述问题,您可以考虑配置维护时段和排除条款。规划维护时段时,请记住其他情况吉科需要重新创建节点。
您也可以考虑更改浪涌升级参数:
激增升级 允许您更改 GKE 一次升级的节点数以及升级对工作负载造成的中断量。
max-surge-upgrade
和 标志max-unavailable-upgrade
是为每个节点池定义的。有关选择正确参数的更多信息,请转到 确定最佳浪涌配置。