最近我们的 Apache Web 服务器每天都会多次出现此错误:
[Tue Apr 06 01:07:10 2010] [error] Server ran out of threads to serve requests. Consider raising the ThreadsPerChild setting
我们将 ThreadsPerChild 设置从 50 提高到 100,但仍然会出现错误。我们的访问日志表明,即使在高负载期间,这些错误也从未发生过。例如,以下是访问日志的摘录(出于隐私考虑,IP 地址和一些 URL 经过编辑)。如您所见,上述错误发生在 1:07,在导致错误发生的几分钟内,只有少数请求发生:
99.88.77.66 - - [06/Apr/2010:00:59:33 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-icons_222222_256x240.png HTTP/1.1" 304 -
99.88.77.66 - - [06/Apr/2010:00:59:34 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_glass_75_dadada_1x400.png HTTP/1.1" 200 111
99.88.77.66 - - [06/Apr/2010:00:59:34 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_glass_75_dadada_1x400.png HTTP/1.1" 200 111
99.88.77.66 - mpeu [06/Apr/2010:00:59:40 -0400] "GET /some/dynamic/content HTTP/1.1" 200 145049
55.44.33.22 - mpeu [06/Apr/2010:01:06:56 -0400] "GET /other/dynamic/content HTTP/1.1" 200 12311
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/jquery-ui-1.7.1.custom.css HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/js/jquery-1.3.2.min.js HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/js/jquery-ui-1.7.1.custom.min.js HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/jquery.tablesorter.min.js HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/date.js HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image1.gif HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image2.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image3.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image4.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image5.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image6.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:56 -0400] "GET /WebRepository/pdfs/image7.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:57 -0400] "GET /WebRepository/pdfs/image8.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:57 -0400] "GET /WebRepository/pdfs/image9.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:57 -0400] "GET /WebRepository/pdfs/imageA.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:57 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_flat_75_ffffff_40x100.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:59 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_highlight-soft_75_cccccc_1x100.png HTTP/1.1" 304 -
55.44.33.22 - - [06/Apr/2010:01:06:59 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_glass_75_e6e6e6_1x400.png HTTP/1.1" 200 110
55.44.33.22 - - [06/Apr/2010:01:06:59 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/images/ui-bg_glass_75_e6e6e6_1x400.png HTTP/1.1" 200 110
11.22.33.44 - mpeu [06/Apr/2010:01:18:03 -0400] "GET /other/dynamic/content HTTP/1.1" 200 12311
11.22.33.44 - - [06/Apr/2010:01:18:03 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/js/jquery-1.3.2.min.js HTTP/1.1" 304 -
11.22.33.44 - - [06/Apr/2010:01:18:04 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/css/smoothness/jquery-ui-1.7.1.custom.css HTTP/1.1" 200 27374
11.22.33.44 - - [06/Apr/2010:01:18:04 -0400] "GET /WebRepository/jquery/jquery-ui-1.7.1.custom/js/jquery-ui-1.7.1.custom.min.js HTTP/1.1" 304 -
11.22.33.44 - - [06/Apr/2010:01:18:04 -0400] "GET /WebRepository/jquery.tablesorter.min.js HTTP/1.1" 200 12795
11.22.33.44 - - [06/Apr/2010:01:18:04 -0400] "GET /WebRepository/date.js HTTP/1.1" 200 25809
值得一提的是,我们运行的是 Oracle 10g(某个 2.0 版本)附带的 Apache 版本,并且我们用它mod_plsql
来生成动态内容。由于 Apache 服务器作为单独的进程运行,并且当此错误发生时数据库不会记录任何问题,因此我怀疑 Oracle 不是问题所在。
不幸的是,这些错误让我们的系统管理员很抓狂,他们倾向于将服务器出现的所有问题都归咎于此错误。这是 Apache 中已知的错误吗?我通过 Google 根本找不到任何相关参考资料?
编辑:应 Embreau 的要求,以下是我们正在使用的设置(请注意,Unix 特定的设置(例如 MinSpareServers)已被注释掉)[另一项编辑 - 除了ThreadsPerChild
这些都是安装时存在的默认值]:
ServerType standalone
Timeout 300
SendBufferSize 16384
KeepAlive On
MaxKeepAliveRequests 100
KeepAliveTimeout 15
MaxRequestsPerChild 0
ThreadsPerChild 100
#MinSpareServers 5
#MaxSpareServers 20
#MaxClients 150
进一步编辑:这是运行在 64 位 1.6 GHz Itanium 2 服务器上的 Windows Server 2003 系统,具有 16 GB 的 RAM。我们已开始进行一些日志记录,以确定发生这些错误时服务器的负载有多大;我们的 Apache 日志显示几乎没有人访问该网站,但后台正在进行数据收集过程,因此也许其中一个过程减慢了 Apache 的速度,从而导致出现一些问题或其他问题。
答案1
虽然您的配置设置还有改进的空间,比如 Embreau 所提到的,但它们可能不是直接原因。
可能是您的应用程序或者堆栈中的某些东西导致了该问题。
例如,如果您的应用程序正在等待数据库的响应,最终可能会导致所有线程都处于等待状态,从而导致即使在低负载下也会出现问题。这种性能通常以活动数据库连接搅动为例。
应用程序错误也可能导致同样的性能问题,而且更难隔离。虽然确实如此,但除非有迹象表明这是原因,否则我会首先关注以下两件事。
ThreadsPerChild
您配置或SendBufferSize
是否有特别的原因?对于ThreadsPerChild
,除非有特殊需求或您已正确考虑过其用途,否则默认设置应该没问题。如果未正确调整,它可能会耗尽物理内存并开始交换,从而降低性能。
MaxRequestsPerChild
设置为0
是不明智的。如果您的应用程序有内存泄漏,Apache 子进程将永远不会回收。您希望它们回收。
我猜你是一名开发人员。你的系统管理员应该与你密切合作来解决这个问题,因为这绝对是一个跨职能的问题。
答案2
您的超时值设置为 300 秒,即 5 分钟,请将其设置为更合理的值,例如 15 或 30 秒。
现在您的问题可能出在 ThreadsPerChild 值上。将其设置为至少 250。请在负载下监视任务管理器中的变化,以确保它不会过度(可能不是,我在一些服务于繁忙网站的旧单核 CPU 上将其设置得更高。)
如果我理解正确的话,它是 Windows 操作系统吗?如果是,是哪一个?在哪种硬件上?(CPU 和内存)