Google Kubernetes 集群重建问题

Google Kubernetes 集群重建问题

我们已经建立了一个 Google Kubernetes 集群,虚拟机数量从 2 台扩展到 5 台。集群上运行着 5-6 个 Pod/容器。我们还设置了 ngnix 进行路由,一切运行正常。

但是我们在使用 Google 集群时遇到了问题。它会自动重建,并且所有虚拟机也会重新创建,这会导致在其上运行的 Pod 出现问题。我们在集群软件更新设置中将发布渠道设置为无。我们假设这是由于 GKE 集群的软件升级而发生的。

请告知我们如何检查。

答案1

我们假设这是由于 GKE 集群软件升级而发生的。请建议我们如何检查它。

你的假设可能是正确的。它可能与自动升级功能就好像它只是由于自动缩放器,只有当你的集群缩放再次扩大规模. 因此,您的虚拟机由于启用了自动升级功能而重新创建。

检查现有节点池的自动升级状态, 跑步:

gcloud container node-pools describe node-pool-name \
  --cluster cluster-name \
  --zone compute-zone

在哪里:

  • node-pool-name是节点池的名称。
  • cluster-name是包含节点池的集群的名称。
  • compute-zone是集群的区域。

autoUpgrade并通过添加到上述命令来搜索您可以执行的操作| grep autoUpgrade

您可以验证日志中具体发生的时间,如这个答案或者您可以按照所述检查节点池升级状态这里。为了防止自动升级意外发生并导致工作负载可用性出现上述问题,您可以考虑配置维护时段和排除条款。规划维护时段时,请记住其他情况吉科需要重新创建节点

您也可以考虑更改浪涌升级参数

激增升级 允许您更改 GKE 一次升级的节点数以及升级对工作负载造成的中断量。

max-surge-upgrade 和 标志 max-unavailable-upgrade 是为每个节点池定义的。有关选择正确参数的更多信息,请转到 确定最佳浪涌配置

相关内容