kubernetes coredns 处于 CrashLoopBackOff 状态,并出现“未找到名称服务器”错误

kubernetes coredns 处于 CrashLoopBackOff 状态,并出现“未找到名称服务器”错误

我曾尝试在我的裸机服务器上使用 kubeadm 构建 kubernetes,并使用 containerd 作为 cri,但似乎安装 cni(weave-net)后 coredns 无法启动。

目前有两个 coredns 容器处于“CrashLoopBackOff”状态,其日志如下:

plugin/forward: no nameservers found

而“kubectl describe pod”的描述如下:

Events:
  Type     Reason            Age                    From               Message
  ----     ------            ----                   ----               -------
  Warning  FailedScheduling  4m52s (x9 over 13m)    default-scheduler  0/1 nodes are available: 1 node(s) had taint {node.kubernetes.io/not-ready: }, that the pod didn't tolerate.
  Normal   Scheduled         4m7s                   default-scheduler  Successfully assigned kube-system/coredns-58cf647449-8pq7k to k8s
  Normal   Pulled            3m13s (x4 over 4m6s)   kubelet            Container image "localhost:5000/coredns:v1.8.4" already present on machine
  Normal   Created           3m13s (x4 over 4m6s)   kubelet            Created container coredns
  Normal   Started           3m13s (x4 over 4m6s)   kubelet            Started container coredns
  Warning  Unhealthy         3m13s                  kubelet            Readiness probe failed: Get "http://10.32.0.3:8181/ready": dial tcp 10.32.0.3:8181: connect: connection refused
  Warning  BackOff           2m54s (x12 over 4m5s)  kubelet            Back-off restarting failed container

如果我在 /etc/resolv.conf 上添加一些设置(如“nameserver 8.8.8.8”),coredns pod 就会开始运行。但是,目前我根本不使用任何外部 dns,并且使用 Docker 作为 cri,尽管 /etc/resolv.conf 上没有任何设置,coredns 仍能正常工作。

是否有可能在不在 resolv.conf 上设置一些上游 DNS 服务器的情况下解决这个问题?

服务器信息:

OS: RedHat Enterprise Linux 8.4
cri: containerd 1.4.11
cni: weave-net 1.16
tools: kubeadm, kubectl, kubelet 1.22.1

我也尝试过使用 calico 作为 cni,但结果是一样的。

答案1

原因是 coredns 在其 ConfigMap 上默认有一个转发设置。尽管 /etc/resolv.conf 上没有 DNS 设置,但它仍试图将请求转发到上游 DNS 服务器。

# kubectl edit configmap coredns -n kube-system

删除以下部分后,它启动并正常工作。

    forward . /etc/resolv.conf {
       max_concurrent 1000
    }

答案2

我更改了 coredns configmap 中的以下部分:

forward . /etc/resolv.conf {
   max_concurrent 1000
}

更改为:

forward . 8.8.8.8 {
       max_concurrent 1000
    }

并且它有效。

答案3

我们的设置稍微复杂一些,集群可以安装在有或没有名称服务器的环境中。使用8.8.8.8无法访问的预配置名称服务器 () 的缺点是超时时间约为 5 秒,因此我们选择了会立即抛出错误的“虚拟”名称服务器。

forward . /etc/resolv.conf 127.0.0.1:9999 {
   max_concurrent 1000
   policy sequential
}

我们决定使用,172.0.0.1:9999因为我们知道 coredns 本身不会公开此端口,因此对此端口的所有请求将被立即拒绝。我们还使用该sequential策略来确保我们首先尝试通过 解析域/etc/resolv.conf。只有当失败时,我们才会使用“虚拟”名称服务器并生成错误。

相关内容