如何修复 kuberentes 集群中的 etcd？

2024-6-1 • tag-icon

我有一个非常不稳定的裸机（kubeadm）kubernetes集群，我将其追溯到 etcd 问题。

从 etcd pod 的描述中我得到：

Image: k8s.gcr.io/etcd:3.4.13-0
Liveness: ... #success=1 #failure=8
Startup:  ... #success=1 #failure=24

在日志中启动顺序看起来不错（与另一个集群相比），然后我收到很多警告：

etcdserver: [...] request ... took too long to execute

但我不认为这与硬件有关，因为etcd_disk_backend_commit_duration_seconds第 99 个百分位数是 16ms，根据常问问题。

无论如何，这种情况会持续几分钟，然后我猜这会导致重启：

etcdserver/api/etcdhttp: /health error; QGET failed etcdserver: request timed out (status code 503)

知道我可以采取什么进一步的步骤来诊断问题并修复 etcd 吗？

相关内容