断电后 Windows 群集发生故障

断电后 Windows 群集发生故障

首先,我们有一个运行 HA Hyper-V 和 DHCP 的 Windows 2008 R2 双节点集群。我们使用后端 Dell MD3000i iSCSI SAN 进行存储。所有网络都是通过冗余交换机和 MPIO 驱动程序完成的。数据网络与主网络位于不同的 VLAN 上。

以下是我们经常遇到的情况:

我们有时会停电。机柜中有两个 UPS 设备,可持续供电约 15 分钟左右,但如果没有恢复供电,所有东西都会瘫痪,包括集群节点、SAN 等。

最终,电源恢复,所有设备都配置为在交流电恢复时启动。但是,当我们遇到这样的完全断电时,集群永远不会正常恢复在线。我们收到常见的错误,例如仲裁磁盘不可用等。此外,我们的两个主域控制器是 VM 集群上的虚拟机。我们确实有一个物理服务器作为另一个域控制器运行,认为当一切恢复在线时这会有所帮助。

我们不明白的是,为什么系统在启动时无法自行恢复,最终有一个可用的 DC 进行身份验证。iSCSI 网络重新上线,我们是否还遗漏了什么?

我认为这可能与集群服务准备就绪时 iSCSI 发起程序服务启动速度不够快有关。

我可以发布任何想法或内容来提供帮助吗?

谢谢,布伦特

答案1

我们遇到了同样的问题,我们的集群在电源故障后无法完全恢复。与您一样,共享存储位于 iSCSI SAN 上。我们的解决方法是确保 VM 主机和客户机启动延迟足够长的时间,以确保 SAN 首先恢复在线状态。我们发现,如果我们不这样做,共享卷将重新连接,但仍处于脱机状态,从而导致集群失败......

答案2

我在自己的系统上遇到了这个问题。断电后,集群无法恢复,要么是因为域控制器尚未准备好,要么是因为 SAN 尚未准备好。对于那些没有任何托管 PDU 或 BIOS 选项来延迟启动,并且需要添加启动延迟的用户,有一个简单的方法发布在这个博客

在 Server 2008 上,打开命令提示符并输入:

bcdedit /copy {current} /d "Boot delay placeholder"
bcdedit /timeout 300

这将创建第二个启动菜单选项(需要超时才能显示),并将超时设置为 5 分钟(300 秒)。服务器将停留在启动菜单,直到达到超时或有人按下 Enter 键。

相关内容