etcd

RKE2 错误 - 等待 API 服务器可用等待检索 kube-proxy 配置；服务器尚未准备好

问题 1 在高可用性 RKE2 Kubernetes 集群中，我配置了一个负载均衡器 (1LB) 和三个主节点。最初，所有组件都按预期运行。但是，在重新启动其中一个节点后，它无法与现有 Kubernetes 集群重新建立连接。执行 systemctl restart rke2-server 后，该节点作为只有一个节点的新服务器启动。在具有三个节点的高可用性 (HA) RKE2 集群配置中，两个节点发生故障会导致 etcd 服务器不可用。经检查，API 服务器和 ETCD 服务器均报告为不可用。因此，我无法管理 Kubernetes 集群。这种情况导致集群上...

Admin 2024-6-2

etcd

etcd 节点升级程序要求

将 etcd 节点从 3.5 升级到 3.5.8 的过程是什么。我遵循以下步骤：下载所需版本解压文件将二进制文件添加到路径测试版本。仅添加二进制文件是否会将版本升级到所需的版本？ ...

Admin 2024-6-2

etcd

删除 etcd 成员时超出上下文截止期限

我的集群不健康，etcd因为一个成员无法加入。该成员不存在，并且etcd卡在选择领导者的过程中。即，有一个包含 3 个节点的集群，其中一个节点尝试加入但失败了，现在集群有 4 个成员，其中一个不可用。etcd开始选择一个领导者，并停留在该状态。因此，etcdctl不再起作用。但我可以使用访问节点 API curl。显然，这是不健康的： curl https://10.0.0.1:2379/health {"health":"false","reason":"RAFT NO LEADER"} 成员列表返回一个包含 4 名成员的列表： curl htt...

Admin 2024-6-2

etcd

Kubernetes 组件状态报告 etcd 不健康

我有一个 3 节点 kube 控制网络设置，其中、etcd和正在运行。当我检查组件的状态时，它显示 etcd 不健康，但 etcd 报告说它是健康的kube-apiserverkube-control-managerkube-scheduler > kubectl get componentstatus --kubeconfig .kube/admin.kubeconfig Warning: v1 ComponentStatus is deprecated in v1.19+ NAME STATUS MESS...

Admin 2024-6-2

etcd

CoreDNS 无法识别 etcd 记录中带有非空“文本”键的查询

我花了两天时间试图找出我的设置出了什么问题，但找不到合理的答案或解决方案，所以我想与你们分享。发生了什么：我已经使用 helm 部署了一个新的 etcd，并配置了 external-dns 以在其中创建 dns 记录，还设置了一个 coredns 部署以从 etcd 读取记录。但是，问题是，当在 etcd 内部创建记录时，coredns 不会响应我的dig命令，简而言之，我认为 coredns 无法识别具有非空“文本”键的查询。 external-dns 创建以下项目： /opt/bitnami/etcd$ etcdctl get --prefix '/...

Admin 2024-6-2

etcd

安全地更换所有控制平面节点 - 最佳实践

我有一个 3 控制平面节点 HA kubeadm 集群，需要完全替换。我已经替换了工作节点。如何在不停机的情况下完全替换控制平面？我在 api 端点前面使用了 LB。这是一个生产环境，所以我想确保我做对了。失败不是一种选择。我最初的攻击计划是这样的：在原控制平面节点 1 上使用以下命令添加 3 个新节点sudo kubeadm token create --print-join-command --certificate-key $(kubeadm certs certificate-key)。获取输出并将其应用于所有 3 个新主机。等到每个人都稳...

Admin 2024-6-2

etcd

Patroni 互连故障转移

3 个数据中心： Patroni 版本：2.1.4 PostgreSQL 版本：14.4 Etcd 版本：3.3.11 直流服务器姓名主持人地位第一帕特罗尼赞助人-s11 172.16.0.2 领导者第一帕特罗尼赞助人-s12 172.16.0.3 同步待机第一远程控制计算机系统 etcd-s11 172.16.0.4 领导者第二帕特罗尼赞助人-s21 172.16.1.2 复制品第二帕特罗尼赞助人-s22 172.16.1.3 复制品第二远程控制计算机系统 etcd-s21 172...

Admin 2024-6-2

etcd

Kubernetes API 数据存储到底是什么？

此页提到了 Kubernetes API 数据存储——https://projectcalico.docs.tigera.io/getting-started/kubernetes/flannel/flannel——这似乎表明 Kubernetes API 数据存储是 etcd 的替代品。但是我没有找到有关此“Kubernetes API 数据存储区”的更多信息，而且我不知道如何检查我当前的 k8s 实例是否使用“Kubernetes API 数据存储区”或 etcd 作为数据存储组件。有人能告诉我更多相关信息吗？ ...

Admin 2024-6-2

etcd

kubernetes：如何检查分配给节点的 pod IP 范围

Kubernetes 集群中的每个节点都有一个专用的 IP 地址范围，可以分配给 Pod。如何检查该 IP 范围？ ...

Admin 2024-6-2

etcd

所有 kube-system pod 持续崩溃，etcd 收到信号

我正在尝试设置本地 Kubernetes 集群。首先，我使用 kubeadm 在一个节点上初始化我的控制平面。但是所有 kube-system pod 都会不断崩溃。我通过 crictl 深入研究了 pod 日志，结果发现大多数 pod 崩溃是因为它们无法到达上的 kube-apiserver <node IP>:6443。而 kube-apiserver 似乎崩溃了，因为它无法到达上的 etcd 127.0.0.1: 2379。而 etcd '崩溃' 是因为它在几分钟后毫无原因地收到了一个 sigterm。在 etcd 容器进程上使用 st...

Admin 2024-6-2

etcd

ETCD 恢复粒度

我正在研究一些针对 Kubernetes 和 Openshift 的备份和恢复解决方案，通常使用 Velero。因此，我不熟悉 ETCD 备份，但我想询问有关 etcd 快照恢复的粒度级别。ETCD 快照是否仅允许恢复整个集群状态？或者我们可以恢复一些特定对象，如命名空间、部署、pod、pvc 等？换句话说，ETCD 备份是否可以执行与 velero 相同的工作（除了涉及卷的内容）？ ...

Admin 2024-6-2

etcd

更改了 etcd 节点的 IP 地址。如何重启集群？

不久前，我使用“hardway”设置了一个 k8s 集群。我最近更改了我的网络，需要为控制器节点（也是集群 etcd 主机）设置新的 IP。我已经更新了 systemd 单元文件中的 IP 地址，例如。 --initial-advertise-peer-urls https://192.168.1.123:2380 \ --listen-peer-urls https://192.168.1.123:2380 \ --listen-client-urls https://192.168.1.123:2379,https://127.0.0.1:...

Admin 2024-6-2

etcd

服务器错误：etcdserver：请求超时 - etcd 备份和恢复后出错

我已经做了etcd备份，然后在同一个集群上恢复，现在我遇到了这些问题，我可以列出资源，但无法创建或删除。这是一个 1 个主服务器和 2 个从服务器的设置，使用kubeadm。我运行这个集群已经将近 8 个月了，之前没有出现过任何问题。任何建议都将不胜感激 :) kubectl version Client Version: version.Info{Major:"1", Minor:"21", GitVersion:"v1.21.0", GitCommit:"cb303e613a121a29364f75cc67d3d580833a7479", GitTree...

Admin 2024-6-1

etcd

ETCD 快照导致 etcdserver: leader 已更改

一段时间以来，我们在 AKS 中对 kube API 进行操作时经常遇到错误，导致出现 etcdserver：leader 已更改消息。据我们了解，AKS 每 2 小时执行一次 ETCD 快照，导致出现此领导者更改。这 2 小时窗口似乎与我们遇到的中断情况一致。我印象中 ETCD 快照不会直接或间接导致 ETCD 集群领导层发生变化。我能想到的唯一原因与快照对领导者的影响程度有关，以至于会失去领导者选举。我这里漏掉了什么吗？在快照期间经历 ETCD 领导者变更是正常的吗？ ...

Admin 2024-6-1

etcd

在 Raspberry Pi 上全新安装 Kubernetes 不起作用

我正在尝试在四个 Raspberry Pi 集群上全新安装 Kubernetes 1.23.x，每个都运行 x64 版本的 Raspberry Pi OS，但是当我尝试kubeadm init在主节点上运行（甚至在尝试让其他节点加入之前）时，我遇到了一个重大障碍。即：在调用kubeadm init主节点后仅五分钟，集群就停止工作。事实上，它从一开始就没有真正工作过。起初服务器响应说节点未就绪，但 5 分钟后它完全停止响应。以下是我所做的和我所看到的：我安装了 containerd 和 kubeadm。然后我在主节点上运行以下命令来尝试启动 Kubernet...

Admin 2024-6-1