我的公司设计了一个应用程序,用于内部流程,该应用程序在大约 50 台虚拟机上运行。该应用程序已经运行了 5 年多,今年年初,我们为新的 Microsoft 2014 数据库设置了一个新的服务器集群。大约 9 个月以来,一切运行良好,但最近 3 个月,我们遇到了一个非常奇怪的问题
50 台机器中随机会有一台或两台开始出现以下错误。
未处理的错误:与 SQL Server 建立连接时发生与网络相关或特定于实例的错误。未找到或无法访问服务器。验证实例名称是否正确以及 SQL Server 是否配置为允许远程连接。(提供程序:TCP 提供程序,错误:0 - 等待操作超时。)
然后,这些过程将会过期,通常大约 30 - 60 分钟后,它将能够重新连接到服务器,就像什么都没发生过一样。
- 重新启动受影响的机器无法解决问题,必须等到问题消失。
- 这段时间内,我们无法ping通集群名称或集群IP,但其他机器仍然可以ping通。
- 我们无法 telnet 到 SQL 端口,而其他机器仍然可以
- 受影响的机器仍然可以访问其他网络资源,只是无法访问该集群
- SQL 的最大并发连接数设置为 0(表示无限制),超时设置为 10 分钟。
- 我们没有在应用程序机器上发现任何一致的问题,因为该问题会随机出现在所有机器上,但每次只会影响 1 或 2 台机器,并且可能需要数小时或数天才能重新出现。
目前我们不知道发生了什么,我们正在寻找可以解决这个问题的方法。