BIND - 单一接口导致查询响应缓慢

Question

这个问题是由于服务器上的 iowait 达到最大值而引起的。它一直以 100% 的速度运行，而导致这个问题的服务是 kjournald。

感谢 Andrew B 的建议，我开始使用调查 UDP 数据包错误 netstat -su | grep errors。由此，我可以看到每秒大约有 30-50 个数据包激增。这促使我通过运行检查每个套接字的 UDP 缓冲区netstat -uanp。由此，我能够确认由于缓冲区已满而发生随机延迟和偶尔的超时（丢失）。我通过分析监听相关 IP/端口的 BIND 服务的 Recv-Q 列中的值发现缓冲区已满。

确定缓冲区已满后，增加缓冲区就没有什么意义了，因为毫无疑问它会再次饱和。相反，由于 CPU 负载和 RAM 看起来没问题，我开始怀疑磁盘操作是否会导致处理 UDP 数据包的瓶颈。通过运行命令top并分析 iowait 值，我确认了这一点。

当我确定 CPU 几乎 100% 的时间都在等待 io 操作完成时，我开始使用诸如iotop查找写入磁盘的内容的工具。结果发现 ext3 文件系统的日志系统正在生成所有等待。这让我想到，也许是服务器上的日志记录量过大导致了饱和，因为我知道该/var/log/messages文件每秒都会收到大量拒绝查询日志。

为了测试上述理论，我在日志记录区域中将以下行添加到了 named.conf 中。此行禁用与收到的查询相关的批准/拒绝消息的日志记录。每个查询都有一个日志/var/log/messages，如果您受到客户端的猛烈攻击，日志可能会很多：

category security { null; };

幸运的是，重新启动 BIND 后，我可以看到 iowait 百分比急剧下降。测试查询时，我能够确认它们现在在十分之一秒内得到响应；与以前相比有了显著的改进。

事后看来，我应该一开始就检查一下 iowait 时间。希望这对遇到类似问题的人有所帮助。我现在将研究如何进一步控制日志记录，看看我能对这些被拒绝的消息做些什么。

Answer 1