集群不可用,并显示“错误”状态

集群不可用,并显示“错误”状态

我创建了两个具有自动升级功能的 GKE 集群。突然失去了对这些集群的所有访问权限,并且看到每个集群有两个 REPAIR_CLUSTER 操作,这些操作被视为已完成 (gcloud beta container operations list),并且 gcloud container clusters list 显示我的两个集群处于 STAUS: ERROR 状态。

PS 据我所知,我们的工程师中没有人在这段时间内没有做过集群级别的操作。

答案1

这是账单问题。我想,由于我无权访问账单,但其余部分都是管理员,所以错误消息尽可能地隐晦。

答案2

乍一看,如果不查看日志文件或集群,很难解释集群为何返回错误状态。这里的问题在于集群主控级别集群主服务器操作并运行 Kubernetes API 服务器、核心资源控制器、调度程序,并且就您的情况而言,主文件中似乎存在错误。但是,用户无权访问 GKE 主服务器,因此很难在您的级别进行调查。

解决方案:

  1. 编辑集群。这意味着您可以创建新的 pod、节点、守护进程集或部署。API 将刷新主节点,从而修复集群中的错误。
  2. 您可以尝试将集群主服务器(或节点池)降级到以前的版本。如果自动升级功能导致任何问题,它将恢复到原始设置。
  3. 您可以删除并重新创建集群。这将刷新主服务器,但如果所有其他选项都失败,则必须将此作为最后的手段。
  4. 我还建议您创建一个新问题在公共问题跟踪器中。GKE 支持人员将查看该问题,并能够检查集群。

相关内容