我们在 AWS 上部署的生产 KOPS Kubernetes v1.20 不健康。间歇性地,我们拥有的 3 个主节点中的 1 个经常进入Not Ready
状态。此外,kube-apiserver pod 正在异常重启(1 小时内,重启 50 次)。其他 2 个主节点工作正常。有时当我运行kubectl get cs
其中一个 etcd 时,它会进入Unhealthy
状态。它与运行或的HTTP error 503
输出相同。有时这些命令都是健康的,有时 etcd 则不是。kubectl get --raw='/readyz?verbose'
kubectl get --raw='/livez?verbose'
此外,在有问题的主节点上运行的有问题的 kube-apiserver pod 的先前日志显示etcd failed: error getting data from etcd: context deadline exceeded
。
我们的业务仍在运行,但我担心,如果我们增加工作量,我们的 2 个工作主节点可能无法应付未来,这可能会导致另一个主节点出现故障。