尝试 nmon

Question 1

经过进一步调查，我们发现性能问题主要是由于两个系统（Oracle SSXA 和 UCM）之间的大量网络调用造成的。调用速度快，数量多，且是序列化的，因此 CPU 使用率低（大部分时间都在等待 I/O）、平均负载高（许多调用等待处理），响应时间尤其长（小响应时间累积而成）。

感谢您对这个问题的见解！

Answer

经过进一步调查，我们发现性能问题主要是由于两个系统（Oracle SSXA 和 UCM）之间的大量网络调用造成的。调用速度快，数量多，且是序列化的，因此 CPU 使用率低（大部分时间都在等待 I/O）、平均负载高（许多调用等待处理），响应时间尤其长（小响应时间累积而成）。

感谢您对这个问题的见解！

Question 2

当您说“高平均负载”时，我假设您的意思是 prstat 在输出数字的底部显示“平均负载”

Total: 135 processes, 3167 lwps, load averages: 54.48, 62.50, 63.11

这些数字看起来与 top 提供的数字类似，可能表示正在运行的进程的平均队列大小。这不是处理器时间的百分比，而是多少“事物”在骚扰 CPU 以等待运行时间。不可否认，这些数字确实看起来很高，但这完全取决于您正在运行的应用程序；这些进程一旦获得其位置，实际上可能并没有做太多事情。请参阅这里关于顶部的一个很好的解释。

我不熟悉 WebLogic，但我注意到，通常，使用 Apache Tomcat 时，虽然请求并不多，但可以同时生成许多 Java 线程。这可能是导致平均负载数字如此之高的原因。确保在适当的情况下使用连接池来连接后端，并考虑增加应用程序可用于处理连接的空闲线程数（不确定如何在 WebLogic 上执行此操作；Tomcat 具有每个连接器线程池或通用执行器线程池）。如果不这样做，则可能会生成全新的线程来处理请求。

至于表现，你需要确定什么您的应用程序的一部分出了问题。是 WebLogic/Java 方面的处理问题、数据库访问问题、DNS 查找问题（如果出于某种原因而进行这些操作...）、网络问题还是操作系统的问题。

99% 的时间里，代码以及代码与数据库的通信方式都会阻碍事情的进展。然后是 Web 应用的配置。过了这个阶段，您将努力从应用中挤出最后几毫秒的时间，或者考虑使用相同的硬件提供更高的并发性。对于这种更细粒度的性能调整，您需要指标。

对于 Java，我建议安装Java 旋律。它可以提供大量有关程序正在做什么的信息，并帮助缩小程序花费时间的范围。我只在 Tomcat 中使用过它，但应该可以很好地与任何 Java EE 容器/servlet 配合使用。

有多种方法可以调整 Java，因此请查看它们的性能指南（我相信您可能已经看过了），并确保设置了适合您程序的正确堆大小等。Java Melody 可以帮助您追踪正在使用的 Java 堆的大小以及垃圾收集器的工作强度/它中断程序以清除对象的频率。

希望对您有所帮助。如果您提供更多信息，我可能会更新此答案并使其更符合您的需求。

Answer

当您说“高平均负载”时，我假设您的意思是 prstat 在输出数字的底部显示“平均负载”

Total: 135 processes, 3167 lwps, load averages: 54.48, 62.50, 63.11

这些数字看起来与 top 提供的数字类似，可能表示正在运行的进程的平均队列大小。这不是处理器时间的百分比，而是多少“事物”在骚扰 CPU 以等待运行时间。不可否认，这些数字确实看起来很高，但这完全取决于您正在运行的应用程序；这些进程一旦获得其位置，实际上可能并没有做太多事情。请参阅这里关于顶部的一个很好的解释。

我不熟悉 WebLogic，但我注意到，通常，使用 Apache Tomcat 时，虽然请求并不多，但可以同时生成许多 Java 线程。这可能是导致平均负载数字如此之高的原因。确保在适当的情况下使用连接池来连接后端，并考虑增加应用程序可用于处理连接的空闲线程数（不确定如何在 WebLogic 上执行此操作；Tomcat 具有每个连接器线程池或通用执行器线程池）。如果不这样做，则可能会生成全新的线程来处理请求。

至于表现，你需要确定什么您的应用程序的一部分出了问题。是 WebLogic/Java 方面的处理问题、数据库访问问题、DNS 查找问题（如果出于某种原因而进行这些操作...）、网络问题还是操作系统的问题。

99% 的时间里，代码以及代码与数据库的通信方式都会阻碍事情的进展。然后是 Web 应用的配置。过了这个阶段，您将努力从应用中挤出最后几毫秒的时间，或者考虑使用相同的硬件提供更高的并发性。对于这种更细粒度的性能调整，您需要指标。

对于 Java，我建议安装Java 旋律。它可以提供大量有关程序正在做什么的信息，并帮助缩小程序花费时间的范围。我只在 Tomcat 中使用过它，但应该可以很好地与任何 Java EE 容器/servlet 配合使用。

有多种方法可以调整 Java，因此请查看它们的性能指南（我相信您可能已经看过了），并确保设置了适合您程序的正确堆大小等。Java Melody 可以帮助您追踪正在使用的 Java 堆的大小以及垃圾收集器的工作强度/它中断程序以清除对象的频率。

希望对您有所帮助。如果您提供更多信息，我可能会更新此答案并使其更符合您的需求。

Question 3

附注：平均负载还包括等待磁盘活动（即骚扰磁盘）以及等待 CPU 的活动，它是两者的总和......因此您可能会在其中一个方面遇到问题。

看http://en.wikipedia.org/wiki/Load_(计算)“Linux 还包括处于不间断睡眠状态（通常等待磁盘活动）的进程”

顺便说一句，我遇到的具体问题是平均负载很高，但 CPU 也有很多空闲，磁盘使用率很低。

至少就我的情况而言，有时等待 I/O 的线程/进程会出现在平均负载中，但不是导致“await”列增加。但它们仍然受 I/O 限制。

如果您在 jruby 中运行以下代码（每个线程执行大量 I/O，仅执行 100 个线程），您可以判断情况确实如此：

100.times { Thread.new { loop { File.open('big', 'w') do |f| f.seek 10_000_000_000; f.puts 'a'; end}}}

其输出结果如下：

top - 17:45:32 up 38 days,  2:13,  3 users,  load average: 95.18, 50.29, 23.83
Tasks: 181 total,   1 running, 180 sleeping,   0 stopped,   0 zombie
Cpu(s):  3.5%us, 11.3%sy,  0.0%ni, 85.1%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  32940904k total, 23239012k used,  9701892k free,   983644k buffers
Swap: 34989560k total,        0k used, 34989560k free,  5268548k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
31866 packrd    18   0 19.9g  12g  11m S 117.0 41.3   4:43.85 java
  912 root      11  -5     0    0    0 S  2.0  0.0   1:40.46 kjournald

所以你可以看到它有很多空闲的 CPU，0.0%wa，但是平均负载非常高。

iostat 类似地显示磁盘基本处于空闲状态：

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
       9.62    0.00    8.75    0.00    0.00   81.62

Device:         rrqm/s   wrqm/s   r/s   w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.00    49.00  0.00  6.40     0.00   221.60    69.25     0.01    0.81   0.66   0.42
sda1              0.00    49.00  0.00  6.40     0.00   221.60    69.25     0.01    0.81   0.66   0.42
sda2              0.00     0.00  0.00  0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00

也可以看看http://linuxgazette.net/141/misc/lg/tracking_load_average_issues.html

进一步说明一下，这似乎还意味着（至少在这种情况下 - 运行 CentOS）平均负载在总量中分别包含每个线程。

Answer

附注：平均负载还包括等待磁盘活动（即骚扰磁盘）以及等待 CPU 的活动，它是两者的总和......因此您可能会在其中一个方面遇到问题。

看http://en.wikipedia.org/wiki/Load_(计算)“Linux 还包括处于不间断睡眠状态（通常等待磁盘活动）的进程”

顺便说一句，我遇到的具体问题是平均负载很高，但 CPU 也有很多空闲，磁盘使用率很低。

至少就我的情况而言，有时等待 I/O 的线程/进程会出现在平均负载中，但不是导致“await”列增加。但它们仍然受 I/O 限制。

如果您在 jruby 中运行以下代码（每个线程执行大量 I/O，仅执行 100 个线程），您可以判断情况确实如此：

100.times { Thread.new { loop { File.open('big', 'w') do |f| f.seek 10_000_000_000; f.puts 'a'; end}}}

其输出结果如下：

top - 17:45:32 up 38 days,  2:13,  3 users,  load average: 95.18, 50.29, 23.83
Tasks: 181 total,   1 running, 180 sleeping,   0 stopped,   0 zombie
Cpu(s):  3.5%us, 11.3%sy,  0.0%ni, 85.1%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  32940904k total, 23239012k used,  9701892k free,   983644k buffers
Swap: 34989560k total,        0k used, 34989560k free,  5268548k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
31866 packrd    18   0 19.9g  12g  11m S 117.0 41.3   4:43.85 java
  912 root      11  -5     0    0    0 S  2.0  0.0   1:40.46 kjournald

所以你可以看到它有很多空闲的 CPU，0.0%wa，但是平均负载非常高。

iostat 类似地显示磁盘基本处于空闲状态：

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
       9.62    0.00    8.75    0.00    0.00   81.62

Device:         rrqm/s   wrqm/s   r/s   w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.00    49.00  0.00  6.40     0.00   221.60    69.25     0.01    0.81   0.66   0.42
sda1              0.00    49.00  0.00  6.40     0.00   221.60    69.25     0.01    0.81   0.66   0.42
sda2              0.00     0.00  0.00  0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00

也可以看看http://linuxgazette.net/141/misc/lg/tracking_load_average_issues.html

进一步说明一下，这似乎还意味着（至少在这种情况下 - 运行 CentOS）平均负载在总量中分别包含每个线程。

Question 4

尝试 nmon

在这种情况下，另一个有用的工具是nmon。

它包含多种方式来查看由其他工具在一个小的包中呈现的相同数据。

如果这是无法缓存的内容，我建议将多台服务器放置在 tcp 模式的负载均衡器（如 haproxy）后面以分配负载。

Answer

尝试 nmon

在这种情况下，另一个有用的工具是nmon。

它包含多种方式来查看由其他工具在一个小的包中呈现的相同数据。

如果这是无法缓存的内容，我建议将多台服务器放置在 tcp 模式的负载均衡器（如 haproxy）后面以分配负载。

尝试 nmon

答案1

答案2

答案3

答案4

尝试 nmon

相关内容