我们目前为大量服务器提供补丁管理服务。过去,我们让一级技术人员在补丁窗口期后通过 RDP 访问每台机器,以验证它们是否在线。我们很快就不再需要这种验证方法了。我们有一个非常强大的监控系统,主要使用 SNMP。它能够进行 ping、snmp、进程、服务、tcp 端口等类型的监控。
我的问题是,大家会推荐我们监控什么来保证 Windows 服务器在线,不会在重启或关机时挂起?我犹豫着是否要将我们的策略改为只依赖监控,直到我确信可以成功监控经典的“关机时挂起”类型的 Windows 更新问题。例如,当服务器修补并在重启时挂起但仍在响应 ping 时,可能某些服务仍会通过 SNMP 签入为正在运行。是否有人设置了能够在这些情况下发出警报的监控策略?是否有推荐的 Windows 服务、进程或端口可以监控?服务器类型多种多样,因此我正在寻找我们可以监控的任何通用 Windows 类型进程。
任何帮助都将不胜感激!
答案1
无论您选择监控什么,服务器都有可能挂起,但监控系统却无法检测到。我建议您监控典型组件,例如磁盘、网络可用性、关键服务(基于安装在每台服务器上的角色)等。这些组件的组合应该足以确保如果服务器挂起,其中一个受监控组件将触发警报。