SQL Server 2012 在 Windows 2012 故障转移群集实例上运行。
(**集群仅包含一个节点。是的,我知道这很糟糕。不,这不是我的决定......)
问题是,在一夜之间看似随机的时间(我们的网络活动最高的时期),SQL Server 将会崩溃。
SQL Server 错误日志指向集群命令其停止:
SQL Server is terminating in response to a 'stop' request from Service Control Manager. This is an informational message only. No user action is required.
群集日志似乎表明它这样做是因为它声称 SQL Server 失败:
我真正感兴趣的是集群认为 SQL Server 失败的原因。我一直在查看事件管理器中的各种故障转移集群日志,但尚未发现任何表明这一点的信息。如果能向服务器团队提供任何具体证据,并说明“这是由于网络”或“这是由于仲裁”或其他任何原因,我将不胜感激。
更新
发现了如何查看集群事件日志中的“信息”条目。不确定这是否是一个指标,但很多条目都提到“Netbios:操作缓慢”。
在第一条讨论使节点离线的条目之前 10 秒,我看到一条条目显示“端点已启动”。