尝试确定集群故障转移的原因

尝试确定集群故障转移的原因

SQL Server 2012 在 Windows 2012 故障转移群集实例上运行。

(**集群仅包含一个节点。是的,我知道这很糟糕。不,这不是我的决定......)

问题是,在一夜之间看似随机的时间(我们的网络活动最高的时期),SQL Server 将会崩溃。

SQL Server 错误日志指向集群命令其停止:

SQL Server is terminating in response to a 'stop' request from Service Control Manager. This is an informational message only. No user action is required.

群集日志似乎表明它这样做是因为它声称 SQL Server 失败:

在此处输入图片描述

我真正感兴趣的是集群认为 SQL Server 失败的原因。我一直在查看事件管理器中的各种故障转移集群日志,但尚未发现任何表明这一点的信息。如果能向服务器团队提供任何具体证据,并说明“这是由于网络”或“这是由于仲裁”或其他任何原因,我将不胜感激。

更新

发现了如何查看集群事件日志中的“信息”条目。不确定这是否是一个指标,但很多条目都提到“Netbios:操作缓慢”。

在第一条讨论使节点离线的条目之前 10 秒,我看到一条条目显示“端点已启动”。

相关内容