我有一个非常不稳定的裸机(kubeadm)kubernetes集群,我将其追溯到 etcd 问题。
从 etcd pod 的描述中我得到:
Image: k8s.gcr.io/etcd:3.4.13-0
Liveness: ... #success=1 #failure=8
Startup: ... #success=1 #failure=24
在日志中启动顺序看起来不错(与另一个集群相比),然后我收到很多警告:
etcdserver: [...] request ... took too long to execute
但我不认为这与硬件有关,因为etcd_disk_backend_commit_duration_seconds
第 99 个百分位数是 16ms,根据常问问题。
无论如何,这种情况会持续几分钟,然后我猜这会导致重启:
etcdserver/api/etcdhttp: /health error; QGET failed etcdserver: request timed out (status code 503)
知道我可以采取什么进一步的步骤来诊断问题并修复 etcd 吗?