GCE 上的 Kubernetes 随机停止工作

Question 1

因此，为了便于记录，以防其他人遇到此问题。我不得不升级到更大的实例，最终是因为我遇到了 OOM（内存不足）错误。

我不记得我是如何发现这些错误的，无论是通过kubectl logs还是通过gcloud命令行实用程序。但其中一个最终说有“OOM”错误。

Answer

因此，为了便于记录，以防其他人遇到此问题。我不得不升级到更大的实例，最终是因为我遇到了 OOM（内存不足）错误。

我不记得我是如何发现这些错误的，无论是通过kubectl logs还是通过gcloud命令行实用程序。但其中一个最终说有“OOM”错误。

Question 2

我也遇到了同样的问题，每当 CPU 利用率接近 100% 时，kubernetes 仪表板就会出现相同的错误

{
  "kind": "Status",
  "apiVersion": "v1",
  "metadata": {},
  "status": "Failure",
  "message": "no endpoints available for service \"kubernetes-dashboard\"",
  "reason": "ServiceUnavailable",
  "code": 503
}

当我删除一些虚拟吊舱时，它将自动再次开始工作。

最主要的是，我有 4 个节点，但大多数 pod 仅在 1-2 个节点上进行调度。

Answer

我也遇到了同样的问题，每当 CPU 利用率接近 100% 时，kubernetes 仪表板就会出现相同的错误

{
  "kind": "Status",
  "apiVersion": "v1",
  "metadata": {},
  "status": "Failure",
  "message": "no endpoints available for service \"kubernetes-dashboard\"",
  "reason": "ServiceUnavailable",
  "code": 503
}

当我删除一些虚拟吊舱时，它将自动再次开始工作。

最主要的是，我有 4 个节点，但大多数 pod 仅在 1-2 个节点上进行调度。

GCE 上的 Kubernetes 随机停止工作

答案1

答案2

相关内容