平均负载高，我什么时候应该担心？

Question 1

仅当它实际上对应于缓慢的应用程序时才需要担心。

更准确地说，平均负载与正在运行或等待的进程数有关。该值可以远大于 1，并且性能良好。在具有 24 个核心的主机上，平均负载为 21 时，即使这些进程以 100% 的速度运行，CPU 也会处于空闲状态。认为 1 是很多的建议可能来自那些没有见过大型或繁忙主机的人。

iowait 对于应用程序来说是延迟的，但是（在现代存储系统中）CPU 实际上可以自由地做其他事情。

监控应用程序的响应时间。将其与其他监控结果关联起来，看看究竟是什么原因导致响应速度缓慢。

Answer

仅当它实际上对应于缓慢的应用程序时才需要担心。

更准确地说，平均负载与正在运行或等待的进程数有关。该值可以远大于 1，并且性能良好。在具有 24 个核心的主机上，平均负载为 21 时，即使这些进程以 100% 的速度运行，CPU 也会处于空闲状态。认为 1 是很多的建议可能来自那些没有见过大型或繁忙主机的人。

iowait 对于应用程序来说是延迟的，但是（在现代存储系统中）CPU 实际上可以自由地做其他事情。

监控应用程序的响应时间。将其与其他监控结果关联起来，看看究竟是什么原因导致响应速度缓慢。

Question 2

A平均负载高于 1指 1 个核心/线程。因此，经验法则是，平均负载等于核心/线程数即可，超过这个数字很可能会导致进程排队，从而降低速度。

这等待例如，也会计入平均负载，并且一个执行大量 IO 的进程可以在不使用第二个核心/线程的情况下将平均负载推高至 1 以上。
虽然这个大量 IO 的进程可能会有糟糕的响应时间，但第二个进程可以非常响应高负载。这取决于进程正在访问的资源。

Answer

A平均负载高于 1指 1 个核心/线程。因此，经验法则是，平均负载等于核心/线程数即可，超过这个数字很可能会导致进程排队，从而降低速度。

这等待例如，也会计入平均负载，并且一个执行大量 IO 的进程可以在不使用第二个核心/线程的情况下将平均负载推高至 1 以上。
虽然这个大量 IO 的进程可能会有糟糕的响应时间，但第二个进程可以非常响应高负载。这取决于进程正在访问的资源。

Question 3

您应该收集更多信息以获得更好的理解。此外，您的帖子缺少详细信息，例如哪种服务器、哪个 Linux 发行版、您有多少个 CPU/核心？您可以执行 mpstat -P ALL 来获取每个 CPU 的信息。您的内存、磁盘和文件系统设置是否足够？

通过查看 lsof |grep nginx 输出，您可能可以确定 nginx 中的哪个操作导致了高负载。

您是否设置了警报/监控？这样，当您看到高警报时，您就可以收到通知。您是否记录服务器负载（通过 sar）？您能识别一天/一周内的任何趋势吗？哪些进程正在运行？

我还看到 mpstat 输出中的 iowait 数字约为 10，这意味着您的系统正在等待 I/O 操作。因此，您需要检查磁盘/文件系统设置，并在必要时进行优化。

基本上，高负载并不一定意味着不好——它可能只是意味着您的服务器和服务正在被使用。或者这意味着明天可能会发生一些不好的事情。然而，人们应该更好地了解系统行为，而不是简单地说一切都运行顺利。因此，在几天内收集更多数据、监控、阅读、研究和观察，然后这些可能会帮助您获得更多见解。

希望这可以帮助。