Win2012R2 上的 MS SQL 2016 AlwaysOn 群集 - 如果文件共享见证关闭,AG 将进行故障转移

Win2012R2 上的 MS SQL 2016 AlwaysOn 群集 - 如果文件共享见证关闭,AG 将进行故障转移

我们当前的设置包括:

  • 单个故障转移群集中的八 (8) 个 Windows 2012 R2 节点,无共享存储,文件共享见证(在 DC 上)

  • 带有几个 AG 组的 MS SQL 2016 AlwaysOn

  • 默认的“如果资源失败”策略

集群验证报告显示了一些小警告(更新差异等),但总体而言一切似乎都很好。

最近,由于大约半小时的 DC 停机时间以及随之而来的文件共享见证不可用,其中一个 AG 发生故障转移。这并不是我们所期望的,因为我们的想法是所有 8 个节点的 Quorum 仍然保持不变,因此预计不会发生故障转移。

在阅读了有关 quorum/FSW/等的所有可用文档后,我仍然没有明确的答案或理解为什么会发生故障转移。

FC 事件日志包含以下歧义:

FailoverClustering Event ID:1069 Resource Control Manager

Cluster resource 'File Share Witness' of type 'File Share Witness' in clustered role 'Cluster Group' failed.

Based on the failure policies for the resource and role, the cluster service may try to bring the resource online on this node or move the group to another node of the cluster and then restart it. Check the resource and group state using Failover Cluster Manager or the Get-ClusterResource Windows PowerShell cmdlet.

在交换为辅助节点 (NODE5) 的节点上,系统事件日志包含:

16.03.2017 12:39:47 Cluster resource 'File Share Witness' of type 'File Share Witness' in clustered role 'Cluster Group' failed due to an attempt to block a required state change in that cluster resource.

16.03.2017 12:39:47 File share witness resource 'File Share Witness' failed to arbitrate for the file share '\\DC\CLUSTER'. Please ensure that file share '\\DC\CLUSTER' exists and is accessible by the cluster.

16.03.2017 12:39:48 The Cluster service failed to bring clustered role 'Cluster Group' completely online or offline. One or more resources may be in a failed state. This may impact the availability of the clustered role.

16.03.2017 12:39:48 Cluster resource 'File Share Witness' of type 'File Share Witness' in clustered role 'Cluster Group' failed due to an attempt to block a required state change in that cluster resource.

16.03.2017 12:39:48 File share witness resource 'File Share Witness' failed to arbitrate for the file share '\\DC\CLUSTER'. Please ensure that file share '\\DC\CLUSTER' exists and is accessible by the cluster.

以及故障转移群集事件日志:

Cluster resource 'File Share Witness' in clustered role 'Cluster Group' has transitioned from state Terminating to state Failed.

<...>

The Cluster service is attempting to fail over the clustered role 'Cluster Group' from node 'NODE5' to node 'NODE6'.

<...>

Clustered role 'db5' is moving to cluster node 'NODE6'.

在我看来,这基本上意味着故障转移是由于文件共享见证离线而导致的。但是 - 为什么呢?

我们想知道是否有办法修复此行为。欢迎提供任何说明或建议,谢谢!

答案1

在我看来,这基本上意味着故障转移是由于文件共享见证离线而导致的。但是 - 为什么呢?

这不是它的意思。阅读已发布的日志,我可以看到核心群集组在另一个节点上发生故障(希望它能修复与见证的连接问题),但是没有关于 SQL Server 的任何信息。您需要在日志中找到 SQL Server 发生故障的位置并追溯它以查看群集决定启动自动故障的原因。

自动故障发生意味着集群具有法定人数。如果没有,则不会发生自动故障。

我们想知道是否有办法修复此行为。欢迎提供任何说明或建议,谢谢!

无需修复,因为这不是正在发生的事情。查看日志以查看自动失败的原因,这就是它失败的原因 - 而不是因为它无法对 FSW 进行健康检查。

相关内容