SQL Server 2005 全球放缓

2024-5-29 • tag-icon

两天前，我们的生产服务器遭遇了严重的减速，主要症状是大量请求遭遇 SQLTimeouts。我将快速描述我们的设置、我调查的内容、我们的解决方法，然后回答我的问题。

我们的设置

一对服务器托管我们的 SAS 应用程序的这个分支。一个是运行 IIS 上的多个应用程序的应用服务器，另一个是运行 SQL Server 2005 的 Windows Server 2008 机器，速度变慢了。SQL 托管了 100 到 200 个数据库。

问题/调查

服务几乎停滞。一些请求通过，但大多数都遭遇 SQL 超时。SQL 机器 CPU 和 RAM 看起来不错，平均 CPU 工作负载约为 25%，RAM 约为 85%。我当时没有想到要检查磁盘活动，因为我直接进入了“EXEC sp_who2”

结果显示，ID 123 本身阻塞了数百个任务，而 ID 456 阻塞了数百个任务。正常执行通常根本没有阻塞任务。当我在 15-20 秒后重新运行 sp_who2 时，会弹出不同的阻塞 ID，但阻塞/阻塞任务的数量似乎保持不变。（由于紧急模式，没有计算组数）

大多数任务都被诸如“SELECT INTO”或“CREATE INDEX on temptable”之类的语句阻塞。

解决方法

终止 SQL 进程并重新启动以恢复服务。速度减慢的情况没有再次出现，但我们知道我们处于危险之中。

我的问题

我该怎么做才能解决这个问题，最好是在它再次出现之前？

子问题：

我目前所做的

从症状来看，我们怀疑问题出在 tempdb 上的某种争用。（另一个症状是，在问题发生期间右键单击 tempdb 查看属性，过了一会儿就出现了错误）

没有日志表明 tempdb 上发生了自动增长事件，但据我所知，自动增长成功没有被记录，只有失败。

从那时起，我阅读了很多有关 tempdb 争用的不同来源的信息，不仅限于但包括：

据我所知，最佳做法是设置初始大小的 tempdb 文件，每个核心一个，最多 8 个文件。我们计划尽快实施（8 个核心，所以 8 个文件），因为这是最佳做法。它们将全部位于同一块硬盘上（目前），但我们认为最坏的情况是没有改善，最好的情况是我们获得逻辑争用瓶颈和磁盘 I/O 瓶颈之间的差异。

但是，我们无法确定与我们遇到的问题是否有关联。据我所知，拆分为多个临时文件将有助于解决“PAGELATCH_XX”类型的等待问题，但在正常活动期间运行 Paul S. Randal 的查询（参见第一个发布的链接）时，不存在这种类型的等待。我在正常活动中看到的前 3 个问题是：

CXPACKET 68.63%
LATCH_EX 18.46%
PAGEIOLATCH_SH 4.35%

然而，我无法知道在速度减慢期间发生了哪种类型的阻塞，因为我们当时并没有掌握所有这些信息。

在我发布这个问题的第二天，问题最终再次出现。

运行 Paul S. Randal 的查询后，我很快发现了许多正在进行的 PAGELATCH_XX 阻塞等待，因此使用 sp_who2 我能够找到罪魁祸首数据库，并且只需从 Web 服务器重新启动相关的客户端应用程序池，作为一种不太苛刻的恢复服务的方法。

我们还能够追踪实际操作，这些操作比以前执行了更多的 tempdb 工作，并将从不同的角度解决这个问题。

解决方案

我们已经根据最佳实践，将 tempdb 文件拆分为多个文件，因为看起来这是该解决方案发生的正确类型的争用，可以解决我的问题。

相关内容