当网络正常时,SSIS/ETL 作业会因网络相关错误而失败

当网络正常时,SSIS/ETL 作业会因网络相关错误而失败

我们有一个 SQL Server 2012 实例,它是我们的主要 ETL/DW 服务器。日常工作包括大约 40 多个 ETL 流程,查询其他数据源、更新数据集市、标准 ETL 和 BI 流程。

过去几周,许多作业因网络相关错误而失败。这些错误大多包括:
由于打开服务器连接延迟,无法完成登录过程
登录超时已过
建立与 SQL Server 的连接时发生与网络相关或特定于实例的错误。找不到或无法访问服务器。请检查实例名称是否正确以及 SQL Server 是否配置为允许远程连接“”。

所有数据源帐户、权限、可用性均已验证为正常工作,并且手动登录和运行 ETL 包没有任何问题。我们遇到的唯一资源问题是日常作业处理过程中 CPU 使用率过高(介于 90-99% 之间),这些错误就是在此时出现的。

故障并不是持续发生的,但通常每周一次左右,当其他一切都运行正常时,某一天我们会遇到大量故障。

我还能在哪里找到这些问题的根源?高 CPU 利用率是否会导致长时间等待,从而表现为网络错误?

答案1

这很可能是 SSIS 服务器上的 CPU 过高。如果客户端(在本例中为 SSIS 服务器)上的 CPU 过于繁忙,那么客户端可能需要等待很长时间才能处理来自 SQL Server 的响应。您需要减少 SSIS 框上的工作负载或优化某些内容,以便降低 CPU 负载,从而使连接正常工作。

相关内容