由于丢弃检测信号路由，WSFC 群集中的 Windows Server 2016 客户机被随机隔离

Question

我刚刚在 Windows Server 2019 故障转移群集（适用于 Hyper-V 2019）中遇到了同样的问题。我通常还会在服务器上禁用 IPv6，这导致了问题。群集抛出许多严重错误，有时会进行硬故障转移，即使文件共享见证也已到位并正常工作（？！）。

我在事件日志中观察到的错误和警告是：

故障转移群集事件 ID：

1135（群集节点“....”已从活动故障转移群集成员身份中删除）
1146（集群资源托管子系统 (RHS) 进程已终止并将重新启动）
1673（群集节点“....”已进入隔离状态。）
1681（节点‘....’上的虚拟机已进入不受监控的状态。）

服务控制管理器事件 ID：

7024（群集节点法定人数不足，无法形成群集。）
7031（群集服务服务意外终止。）

故障转移群集客户端

81（扩展的 RPC 错误信息）

感谢您的研究，我得到了一个重要线索：隐藏适配器仍然使用 IPv6。由于您链接的文章说，在隐藏适配器上禁用 IPv6 不推荐或不主流，但在所有其他适配器上禁用 IPv6 是受支持和测试的，我想知道是什么阻止了他工作。

使用以下命令我提取了集群日志（也感谢提示！我不知道这个有用的命令）：

# -Destination (Folder) in my case changed to be not on the "C:\" SATADOM (this thing is slow and has few write cycles)
# -TimeSpan (in minutes) limited to one of the Failovers because these logs get HUGE otherwise.
Get-ClusterLog -Destination "E:\" -TimeSpan 5

不幸的是，我有与您已发布的相同的日志条目。

我在所有适配器上重新启用了 IPv6，并使用以下方法恢复了与隧道相关的适配器/配置：

Set-Net6to4Configuration -State Default
Set-NetTeredoConfiguration -Type Default
Set-NetIsatapConfiguration -State Default

这并没有起到作用...进一步观察后，我发现我总是禁用“那些不需要的”IPv6 相关防火墙规则...而这似乎是真正重要的改变！这些规则似乎也会影响隐形适配器。

事情似乎是这样的：IPv6 不使用 ARP 来查找其通信伙伴的 MAC 地址。它使用邻居发现协议。如果您禁用相关的防火墙规则，此协议将不起作用。而您可以使用以下命令检查 IPv4 ARP 条目：

arp -a

这不会显示 IPv6 地址的 MAC 地址。您可以使用以下地址：

netsh interface ipv6 show neighbors level=verbose

如果需要，您可以像这样将输出过滤到您的 IPv6 适配器地址：

netsh interface ipv6 show neighbors level=verbose | sls ".*fe80::1337:1337:1234:4321.*" -Context 4 |%{$_.Line,$_.Context.PostContext,""}

这样做后，我发现这些条目似乎很短暂。集群伙伴的 Microsoft“故障转移群集虚拟适配器”链接本地地址的条目状态始终在“可访问”和“探测”之间切换。虽然我没有得到“不可访问”的时刻，但重新启用 IPv6 规则后，问题就消失了：

Get-NetFirewallRule -ID "CoreNet-ICMP6-*" | Enable-NetFirewallRule

不知何故，这个 MAC 地址似乎以另一种方式在集群伙伴之间交换（可能是因为它是“虚拟远程”地址而不是真实地址？）。因此，它不断出现，导致那些疯狂的故障转移/隔离/隔离状态。

也许在隐形适配器上禁用 IPv6 也会有所帮助，但由于不建议这样做，我现在决定完全停止禁用与 IPv6 相关的功能。无论如何，这是未来 :-)

希望这对其他 IPv6 禁用者有所帮助！

Answer 1