Windows 2003 集群的合理补丁计划

Windows 2003 集群的合理补丁计划

我们在粗粒度计算集群中拥有一个由 75 个 Win2k3 节点组成的集群。该集群位于大量防火墙后面,位于自己的 VLAN 中。各种规模和类型的作业都在该集群上运行,并且所有运行的可执行文件都是定制的。

(编辑:关于我们的可执行文件的附加说明)这些作业的持续时间从 30 秒到 7 天不等,可能包含一个可执行文件或 2000 个子作业(持续时间较短)。显然,我们正试图避免 IT 在 7 天的生产作业期间安排重新启动的情况。

我们有调度软件,可以适应粗粒度集群的所有正常任务,并且我们可以控制哪些机器处于活动提交状态等。如果 WSUS 可以以某种方式编写脚本(或者客户端可以声明它可以关闭),我们可以协调这两个系统并提供帮助。

目前,无论集群上运行什么,补丁计划都是超级星期二之后的星期日。每次我们想推迟修补一台机器以完成长期运行的生产作业时,我们都必须请求豁免。基本上,虽然我们的团队负责机器,但我们对 IT 的补丁计划几乎没有控制权。

  1. 按照 MS 的计划每月对生产 Windows 集群进行修补是否合理?
  2. WSUS 中是否存在软件挂钩,让我们可以说“请不要立即重新启动”?

答案1

1.按照 MS 的计划每月对 Windows 生产集群进行修补是否合理?

是的,但是集群不应该因补丁而出现任何停机,因为它应该将作业故障转移到另一个节点 - 我不会同时修补整个集群(那太疯狂了)

2.WSUS 中是否存在软件挂钩,让我们可以说“请不要立即重新启动”?

最终用户无法停止 WSUS 更新或重新启动,但在我看来,您的团队和 IT 团队之间存在真正的沟通问题;不过,您应该能够一次丢失 1 个节点,而对生产的影响很小。

答案2

通过使用 Config Mgr 管理更新部署,您可以阻止服务器重新启动。这样更新就会应用(但可能要等到重新启动后才会生效),IT 会收到显示那些等待重新启动的服务器的报告。他们可以轻松地为您提供此列表,我希望您可以轻松地手动安排特定节点的重新启动而不会造成太多干扰。IT 可以轻松进行故障安全部署(强制重新启动)以及较长的截止时间,这样如果您未能遵守承诺,最终将强制更新和重新启动!

对于标准更新部署,IT(和您)可能希望在完全静默(非重启部署)的情况下有非常短的截止期限,也希望在非静默的情况下有稍长的截止期限部署,这样如果您登录到服务器,就会看到通知。这两种部署都不应强制重启。

您仍然可能会遇到这样的情况:由于库或其他代码组件在未使用时进行了更新,然后在重新启动使其余更新生效之前被使用,因此出现故障。

这是一种高效的方式,可以让您和 IT 部门了解正在发生的事情。根据部署报告哪些服务器处于什么状态对你们双方都非常有用。

答案3

听起来您的 IT 部门似乎对您采取了“言听计从”的态度。您需要让他们坐下来(或者用啤酒贿赂他们?)解释您的情况,看看他们能否采取一些措施,例如创建带有手动补丁批准的下游 WSUS 服务器。

WSUS 的设置全部由组策略设置,这些设置是在域或 OU 级别的活动目录中设置的。如果服务器位于没有单独 OU 的公司域中,那么它们将获得其他人所获得的内容,这听起来不太合适。

如果您无法与 IT 部门解决该问题,那么是否要将计算机从域中删除?

相关内容