我曾尝试在我的裸机服务器上使用 kubeadm 构建 kubernetes,并使用 containerd 作为 cri,但似乎安装 cni(weave-net)后 coredns 无法启动。
目前有两个 coredns 容器处于“CrashLoopBackOff”状态,其日志如下:
plugin/forward: no nameservers found
而“kubectl describe pod”的描述如下:
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Warning FailedScheduling 4m52s (x9 over 13m) default-scheduler 0/1 nodes are available: 1 node(s) had taint {node.kubernetes.io/not-ready: }, that the pod didn't tolerate.
Normal Scheduled 4m7s default-scheduler Successfully assigned kube-system/coredns-58cf647449-8pq7k to k8s
Normal Pulled 3m13s (x4 over 4m6s) kubelet Container image "localhost:5000/coredns:v1.8.4" already present on machine
Normal Created 3m13s (x4 over 4m6s) kubelet Created container coredns
Normal Started 3m13s (x4 over 4m6s) kubelet Started container coredns
Warning Unhealthy 3m13s kubelet Readiness probe failed: Get "http://10.32.0.3:8181/ready": dial tcp 10.32.0.3:8181: connect: connection refused
Warning BackOff 2m54s (x12 over 4m5s) kubelet Back-off restarting failed container
如果我在 /etc/resolv.conf 上添加一些设置(如“nameserver 8.8.8.8”),coredns pod 就会开始运行。但是,目前我根本不使用任何外部 dns,并且使用 Docker 作为 cri,尽管 /etc/resolv.conf 上没有任何设置,coredns 仍能正常工作。
是否有可能在不在 resolv.conf 上设置一些上游 DNS 服务器的情况下解决这个问题?
服务器信息:
OS: RedHat Enterprise Linux 8.4
cri: containerd 1.4.11
cni: weave-net 1.16
tools: kubeadm, kubectl, kubelet 1.22.1
我也尝试过使用 calico 作为 cni,但结果是一样的。
答案1
原因是 coredns 在其 ConfigMap 上默认有一个转发设置。尽管 /etc/resolv.conf 上没有 DNS 设置,但它仍试图将请求转发到上游 DNS 服务器。
# kubectl edit configmap coredns -n kube-system
删除以下部分后,它启动并正常工作。
forward . /etc/resolv.conf {
max_concurrent 1000
}
答案2
我更改了 coredns configmap 中的以下部分:
forward . /etc/resolv.conf {
max_concurrent 1000
}
更改为:
forward . 8.8.8.8 {
max_concurrent 1000
}
并且它有效。
答案3
我们的设置稍微复杂一些,集群可以安装在有或没有名称服务器的环境中。使用8.8.8.8
无法访问的预配置名称服务器 () 的缺点是超时时间约为 5 秒,因此我们选择了会立即抛出错误的“虚拟”名称服务器。
forward . /etc/resolv.conf 127.0.0.1:9999 {
max_concurrent 1000
policy sequential
}
我们决定使用,172.0.0.1:9999
因为我们知道 coredns 本身不会公开此端口,因此对此端口的所有请求将被立即拒绝。我们还使用该sequential
策略来确保我们首先尝试通过 解析域/etc/resolv.conf
。只有当失败时,我们才会使用“虚拟”名称服务器并生成错误。