如何修复 kuberentes 集群中的 etcd?

如何修复 kuberentes 集群中的 etcd?

我有一个非常不稳定的裸机(kubeadm)kubernetes集群,我将其追溯到 etcd 问题。

从 etcd pod 的描述中我得到:

Image: k8s.gcr.io/etcd:3.4.13-0
Liveness: ... #success=1 #failure=8
Startup:  ... #success=1 #failure=24

在日志中启动顺序看起来不错(与另一个集群相比),然后我收到很多警告:

etcdserver: [...] request ... took too long to execute

但我不认为这与硬件有关,因为etcd_disk_backend_commit_duration_seconds第 99 个百分位数是 16ms,根据常问问题

无论如何,这种情况会持续几分钟,然后我猜这会导致重启:

etcdserver/api/etcdhttp: /health error; QGET failed etcdserver: request timed out (status code 503)

知道我可以采取什么进一步的步骤来诊断问题并修复 etcd 吗?

相关内容