我有一个主bind9
DNS 服务器和 2 个在 IPv4 (Debian Jessie) 上运行的从属服务器,使用/etc/bind/named.conf
:
listen-on-v6 { none; };
当我尝试从不同的服务器连接时,每个连接至少需要 5 秒(我正在使用约瑟夫的时间信息用于调试):
$ curl -w "@curl-format.txt" -o /dev/null -s https://example.com
time_namelookup: 5.512
time_connect: 5.512
time_appconnect: 5.529
time_pretransfer: 5.529
time_redirect: 0.000
time_starttransfer: 5.531
----------
time_total: 5.531
根据curl
,查找花费了大部分时间,但是标准nslookup
非常快:
$ time nslookup example.com > /dev/null 2>&1
real 0m0.018s
user 0m0.016s
sys 0m0.000s
强制curl
使用 IPv4 后,情况好多了:
$ curl -4 -w "@curl-format.txt" -o /dev/null -s https://example.com
time_namelookup: 0.004
time_connect: 0.005
time_appconnect: 0.020
time_pretransfer: 0.020
time_redirect: 0.000
time_starttransfer: 0.022
----------
time_total: 0.022
我已在主机上禁用 IPv6:
echo 1 > /proc/sys/net/ipv6/conf/eth0/disable_ipv6
尽管问题仍然存在。我尝试运行strace
看看超时的原因是什么:
write(2, "*", 1*) = 1
write(2, " ", 1 ) = 1
write(2, "Hostname was NOT found in DNS ca"..., 36Hostname was NOT found in DNS cache
) = 36
socket(PF_INET6, SOCK_DGRAM, IPPROTO_IP) = 4
close(4) = 0
mmap(NULL, 8392704, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS|MAP_STACK, -1, 0) = 0x7f220bcf8000
mprotect(0x7f220bcf8000, 4096, PROT_NONE) = 0
clone(child_stack=0x7f220c4f7fb0, flags=CLONE_VM|CLONE_FS|CLONE_FILES|CLONE_SIGHAND|CLONE_THREAD|CLONE_SYSVSEM|CLONE_SETTLS|CLONE_PARENT_SETTID|CLONE_CHILD_CLEARTID, parent_tidptr=0x7f220c4f89d0, tls=0x7f220c4f8700, child_tidptr=0x7f220c4f89d0) = 2004
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
rt_sigaction(SIGPIPE, NULL, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, 8) = 0
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
poll(0, 0, 4) = 0 (Timeout)
rt_sigaction(SIGPIPE, NULL, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, 8) = 0
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
poll(0, 0, 8) = 0 (Timeout)
rt_sigaction(SIGPIPE, NULL, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, 8) = 0
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
poll(0, 0, 16) = 0 (Timeout)
rt_sigaction(SIGPIPE, NULL, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, 8) = 0
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
poll(0, 0, 32) = 0 (Timeout)
rt_sigaction(SIGPIPE, NULL, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, 8) = 0
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
rt_sigaction(SIGPIPE, {SIG_IGN, [PIPE], SA_RESTORER|SA_RESTART, 0x7f22102e08d0}, NULL, 8) = 0
poll(0, 0, 64) = 0 (Timeout)
这似乎不是防火墙问题,因为nslookup
(或curl -4
) 使用相同的 DNS 服务器。知道可能出什么问题吗?
以下tcpdump
来自楼主tcpdump -vvv -s 0 -l -n port 53
:
tcpdump: listening on eth0, link-type EN10MB (Ethernet), capture size 262144 bytes
20:14:52.542526 IP (tos 0x0, ttl 64, id 35839, offset 0, flags [DF], proto UDP (17), length 63)
192.168.1.1.59163 > 192.168.1.2.53: [bad udp cksum 0xf9f3 -> 0x96c7!] 39535+ A? example.com. (35)
20:14:52.542540 IP (tos 0x0, ttl 64, id 35840, offset 0, flags [DF], proto UDP (17), length 63)
192.168.1.1.59163 > 192.168.1.2.53: [bad udp cksum 0xf9f3 -> 0x6289!] 45997+ AAAA? example.com. (35)
20:14:52.543281 IP (tos 0x0, ttl 61, id 63674, offset 0, flags [none], proto UDP (17), length 158)
192.168.1.2.53 > 192.168.1.1.59163: [udp sum ok] 45997* q: AAAA? example.com. 1/1/0 example.com. [1h] CNAME s01.example.com. ns: example.com. [10m] SOA ns01.example.com. ns51.domaincontrol.com. 2016062008 28800 7200 1209600 600 (130)
20:14:57.547439 IP (tos 0x0, ttl 64, id 36868, offset 0, flags [DF], proto UDP (17), length 63)
192.168.1.1.59163 > 192.168.1.2.53: [bad udp cksum 0xf9f3 -> 0x96c7!] 39535+ A? example.com. (35)
20:14:57.548188 IP (tos 0x0, ttl 61, id 64567, offset 0, flags [none], proto UDP (17), length 184)
192.168.1.2.53 > 192.168.1.1.59163: [udp sum ok] 39535* q: A? example.com. 2/2/2 example.com. [1h] CNAME s01.example.com., s01.example.com. [1h] A 136.243.154.168 ns: example.com. [30m] NS ns01.example.com., example.com. [30m] NS ns02.example.com. ar: ns01.example.com. [1h] A 136.243.154.168, ns02.example.com. [1h] A 192.168.1.2 (156)
20:14:57.548250 IP (tos 0x0, ttl 64, id 36869, offset 0, flags [DF], proto UDP (17), length 63)
192.168.1.1.59163 > 192.168.1.2.53: [bad udp cksum 0xf9f3 -> 0x6289!] 45997+ AAAA? example.com. (35)
20:14:57.548934 IP (tos 0x0, ttl 61, id 64568, offset 0, flags [none], proto UDP (17), length 158)
192.168.1.2.53 > 192.168.1.1.59163: [udp sum ok] 45997* q: AAAA? example.com. 1/1/0 example.com. [1h] CNAME s01.example.com. ns: example.com. [10m] SOA ns01.example.com. ns51.domaincontrol.com. 2016062008 28800 7200 1209600 600 (130)
编辑: 在绑定日志中经常出现以下消息:
error sending response: host unreachable
不过,每个查询最终都会得到答复(只需要 5 秒)。所有机器都是物理服务器(这不是 NAT 的错误),更有可能的是数据包被路由器阻止。这是很可能相关的问题:DNS 查找有时需要 5 秒。
答案1
简短回答:
解决方法是通过添加一行来强制glibc
重用套接字来查找AAAA
和记录:A
/etc/resolv.conf
options single-request-reopen
这个问题的真正原因可能是:
- 配置错误的防火墙或路由器(例如此处描述的 Juniper 防火墙配置) 导致
AAAA
DNS 数据包丢失 - DNS 服务器中的错误
长答案:
curl
类似或wget
使用glibc的功能的程序获取地址信息(),它尝试通过并行查找 DNS 记录来兼容 IPv4 和 IPv6。在收到两条记录之前它不会返回结果(有与这种行为相关的几个问题) - 这解释了strace
上面的内容。当强制使用 IPv4 时,例如curl -4
在内部仅gethostbyname()
查询A
记录。
从中tcpdump
我们可以看出:
-> A?
开头发送两个请求-> AAAA?
(请求 IPv6 地址)<- AAAA
回复-> A?
再次请求 IPv4 地址<- A
收到回复-> AAAA?
再次请求 IPv6<- AAAA
回复
A
由于某种原因,一个回复被删除,这是一条错误消息:
error sending response: host unreachable
但我不清楚为什么需要第二次AAAA
查询。
要验证您是否遇到相同的问题,您可以在以下位置更新超时/etc/resolv.conf
:
options timeout:3
首先创建一个文本文件自定义时间报告配置:
cat >./curl-format.txt <<-EOF
time_namelookup: %{time_namelookup}\n
time_connect: %{time_connect}\n
time_appconnect: %{time_appconnect}\n
time_redirect: %{time_redirect}\n
time_pretransfer: %{time_pretransfer}\n
time_starttransfer: %{time_starttransfer}\n
----------\n
time_total: %{time_total}\n
EOF
然后发送请求:
$ curl -w "@curl-format.txt" -o /dev/null -s https://example.com
time_namelookup: 3.511
time_connect: 3.511
time_appconnect: 3.528
time_pretransfer: 3.528
time_redirect: 0.000
time_starttransfer: 3.531
----------
time_total: 3.531
还有另外两个相关选项man resolv.conf
:
单一请求(自 glibc 2.10 起)设置
RES_SNGLKUP
在_res.options
.默认情况下,glibc 从 2.9 版本开始并行执行 IPv4 和 IPv6 查找。某些设备 DNS 服务器无法正确处理这些查询并使请求超时。此选项禁用该行为并使 glibc 按顺序执行 IPv6 和 IPv4 请求(代价是解析过程会减慢)。单请求重新打开(自 glibc 2.9 起) 解析器对 A 和 AAAA 请求使用相同的套接字。某些硬件错误地只发回一个回复。当这种情况发生时,客户端系统将坐下来等待第二个答复。打开此选项会更改此行为,以便如果来自同一端口的两个请求未正确处理,它将关闭套接字并在发送第二个请求之前打开一个新套接字。
相关问题:
答案2
正如@Tombart 所说,延迟是由于等待 IPv6 解析超时造成的。
另一种可能的做法是在 /etc/gai.conf 中优先考虑 IPv4
来自 /etc/gai.conf 中的注释
# For sites which prefer IPv4 connections change the last line to # precedence ::ffff:0:0/96 100
更改后gai.conf
,您需要重新启动任何使用 DNS 解析器库的应用程序才能使更改生效。
请注意,如果您使用没有 IPv6 连接的 BIND 服务器,我建议禁用 IPv6named
并从根提示中获取 IPv6 地址。显然它仍然会尝试解析 AAAA 地址。
所以对于 BIND 配置,
在 /etc/default/bind9 中,为 IPv4 地址添加 -4:
OPTIONS="-4 -u bind"
并在 中/etc/bind/db.root
删除所有具有 AAAA DNS 根的行。
答案3
答案4
如果有人正在寻找curl-format.txt。将其粘贴到您的 shell 中,它将为您创建格式文件。原来的链接对我不起作用。找到这个例子这里
cat >./curl-format.txt <<-EOF
time_namelookup: %{time_namelookup}\n
time_connect: %{time_connect}\n
time_appconnect: %{time_appconnect}\n
time_redirect: %{time_redirect}\n
time_pretransfer: %{time_pretransfer}\n
time_starttransfer: %{time_starttransfer}\n
----------\n
time_total: %{time_total}\n
EOF