2013 年底,我们的单个 Windows Server 2008R2 DHCP 服务器开始每周左右一次失去响应。服务器本身正常运行,但 DHCP 服务器没有响应。尝试连接到管理接口会挂起并且永远不会超时,尝试从 services.msc 重新启动服务也会挂起。dhcp 日志中没有写入任何条目,事件日志中也没有任何有用的信息。我阅读了几篇有关类似问题的 Microsoft kb 文章,并安装了我找到的一个热补丁,但这些都无济于事。这种情况持续了几个星期,每次都要重新启动整个服务器来解决这个问题,我们将大多数范围迁移到第二台服务器,尽管这不能解决我们的问题,但确实缓解了问题。该问题从未在该服务器上再次出现,并且在大多数范围迁移后,它仍在为 500 多个范围提供 DHCP 租约。当时我们推测,虽然 Windows DHCP 服务器的容量没有官方限制,但我们可能遇到了与我们同时拥有的租约数量相关的某种竞争条件。
两天前,第二台服务器上也发生了同样的事情,今天早上又发生了。周一发生这种情况时我不在办公室,因此 Linux 管理员关闭了整个服务器(这是之前唯一有帮助的方法)。今天早上发生这种情况时我在线,所以我立即介入。在尝试了我们在 2013 年尝试过的所有方法后,我使用任务管理器强制终止运行 dhcpserver 的 svchost,然后能够使用 services.msc 重新启动该服务。然后向 dhcp 日志中写入一条条目,表明该服务再次在线,但它从未开始分配 IP。此时管理界面也响应了。经过近一个小时的尝试,我不得不重新启动服务器,以免给开始一天工作的人带来不便。
我们没有添加任何新的范围或以任何我认为会导致问题出现的重要方式改变网络。
此时我希望找到一种方法来增加 DHCP 服务器的日志记录,尽管我想知道此时是否不仅仅是 DHCP 服务器服务导致了此问题,因为我能够强制终止它并重新启动它,并且它写入审计日志,但之后什么也没有发生。
服务器正在运行卡巴斯基 AV,并且我在网上找到的所有 DHCP 服务器排除项均已到位(基本上排除了 dhcp 文件夹),但是我今天早上确实将其卸载了,以查看是否有区别。
服务器大部分已修补,虽然不是 100% 更新,但已经非常接近了。
有什么想法或建议吗?