我刚刚发现192.112.36.4
(g.root-servers.net.
)既不响应请求,也不响应 ping。
. 3600000 NS G.ROOT-SERVERS.NET.
G.ROOT-SERVERS.NET. 3600000 A 192.112.36.4
我检查了http://www.internic.net/domain/named.root,这是最新的根服务器列表,IP 地址正确。我一直认为这些根服务器是冗余的,不可能出现停机。根据http://root-servers.org全球有六个服务器所在地,因此我认为这个假设是正确的。
我的问题是,g.root-servers.net.
它是否与其他所有事物有什么不同,或者有什么特别之处,
如果我因为某种原因没有收到 DNS 响应怎么办?
答案1
我一直以为这些根服务器是冗余的,不可能出现宕机。根据http://root-servers.org全球有六个服务器所在地,因此我认为这个假设是正确的。
即使 G 没有出现未记录的中断,这也是一个错误的假设:
- Anycast IP 地址可能代表多个物理站点,但不希望一个地区的滥用事件引发其他地区的故障。如果一个站点崩溃,流量就不会转移到另一个站点。
- 存在针对根服务器的滥用行为的共享网络链接很可能会在靠近根服务器的基础设施出现故障之前就瘫痪。
最后,我们有人类因素。G 倒下了全面,但目前官方尚未披露原因。这种类型的大规模故障通常表明中央政府存在蓄意行为或灾难性故障。
由于 Serverfault 的用户并不代表根服务器的管理员,因此最好的办法是留意官方声明。与此同时,上面的链接足以证明 G 完全中断了。互联网继续运行,因为一个根中断不会对大局产生重大影响。
DoD NIC 的最新消息:
Regarding yesterday's G-root outage:
Like many outages, this one resulted from a series of unfortunate events.
These unfortunate events were operational errors; steps have been taken to
prevent any reoccurrence, and to provide better service in the future.
https://lists.dns-oarc.net/pipermail/dns-operations/2016-April/014765.html
答案2
昨天下午我和 Ripe 的某个人一起开了会,她向我展示了问题之后,我的第一印象是根服务器的防火墙配置存在错误。
我注意到的事情:
- TCP 响应工作正常。(https://atlas.ripe.net/dnsmon/group/root?dnsmon.session.color_range_pls=0-66-66-99-100&dnsmon.session.exclude-errors=true&dnsmon.type=server-probes&dnsmon.server=192.112.36.4&dnsmon.zone=root&dnsmon.startTime=1460573400&dnsmon.endTime=1460649600&dnsmon.ipVersion=both&dnsmon.isTcp=true)
- UDP 响应已失效。
- 所有 Ripe Atlas 探测器都报告了同样的问题。该问题并不只存在于某一地区。
- 网络的 BGP 路由很顺畅。没有任何问题。
UDP 不起作用而 TCP 起作用的事实表明有人试图阻止超过一定大小的 UDP 数据包或类似情况。
在停机期间我做了几次测试,所有 UDP 测试都失败了,不仅仅是答案大小大于 512 字节的测试。