目前我们的服务器存在一些问题,间歇性地,我们似乎会看到 apache 进程不停地运行,占用了 100% 的 CPU。
运行 top 时,我们会看到以下内容:
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
20788 www-data 20 0 318m 18m 3984 R 100 0.0 40:29.21 /usr/sbin/apache2 -k start
23523 www-data 20 0 319m 20m 4684 R 100 0.0 4:12.36 /usr/sbin/apache2 -k start
我想尝试找出导致这种情况的脚本(或其他任何脚本),因此我尝试:
strace -p 20788
但它根本没有显示任何输出(我把它放了大约 10 分钟,它什么也没显示)。据我了解,这可能意味着它陷入了无限循环,并且没有任何“系统调用”可显示。
我还能做些什么来表明发生了什么事?
谢谢
编辑 -忘了说了,这是一个实时服务器,每次都有几百个用户!所以我真的不能随意尝试更改配置选项并重新启动 apache。
编辑2- 当 PHP 没有配置 --enable-debug 时,gdb 的回溯 (bt) 似乎并不是那么有用 - 它只显示“execute()”,但我需要知道实际正在运行的 PHP 脚本是什么..还有其他方法吗?
#0 0x00007f6c143fb0c5 in ?? () from /usr/lib/apache2/modules/libphp5.so
#1 0x00007f6c143b040b in execute () from /usr/lib/apache2/modules/libphp5.so
#2 0x00007f6c1438b970 in zend_execute_scripts () from /usr/lib/apache2/modules/libphp5.so
#3 0x00007f6c14337fe3 in php_execute_script () from /usr/lib/apache2/modules/libphp5.so
#4 0x00007f6c1441ae7d in ?? () from /usr/lib/apache2/modules/libphp5.so
#5 0x00007f6c18912508 in ap_run_handler ()
#6 0x00007f6c1891297e in ap_invoke_handler ()
#7 0x00007f6c18922570 in ap_process_request ()
#8 0x00007f6c1891f398 in ?? ()
#9 0x00007f6c18918fa8 in ap_run_process_connection ()
#10 0x00007f6c189271d0 in ?? ()
#11 0x00007f6c1892793a in ?? ()
#12 0x00007f6c189284e7 in ap_mpm_run ()
#13 0x00007f6c188fd4a4 in main ()
答案1
好吧,如果你觉得自己很勇敢的话:
gdb -p 20788
然后发出bt
查看堆栈框架的信号,例如
顺便说一下,还有ltrace
值得一提的是——也尝试一下。
更新。:好吧,既然我们现在知道 Apache 确实在运行某些东西,为什么不看看mod_status
输出 -扩展一?
答案2
一种非常简单的方法是使用htop
。您可以对高 CPU 进程进行排序,然后使用
- s 表示
strace
进程 - l
lsof
查看进程打开的文件 - L 至
ltrace
。
我发现至少有一个选项可以找到生成负载的脚本,您当然可以在生产 Web 服务器上使用它进行调试。
答案3
您可以尝试:
- iotop(显示系统的 I/O)
- netstat -t(显示连接)
- 查看 apache 日志文件,了解服务器最后执行了什么操作
- 为 apache 进程设置一些 RLimits。当达到这些限制时,进程将被终止,为您提供更多信息
答案4
该 Apache 实例的 PID 很低,它可能是所有实例的父进程。这肯定可以解释 CPU 使用率高的原因(它一直存在,其他实例则根据负载生成并调用)。大量累积的 CPU 时间可能只是意味着它已经运行了很长时间。没有输出strace(1)
只是意味着它没有进行系统调用。是的,它可能处于紧密循环中,但 Apache 本质上是通过网络进行 I/O,所以我认为它没有做任何有用的事情。无论如何,一个 CPU 占用 100% 很奇怪。