没有明显原因导致平均负载过高

Question 1

AWS 过度竞争其 VM 服务器；他们假设并非每个人都会消耗分配给他们的所有资源，因此亚马逊可以从部署的每台硬件中赚取更多钱。因此，您可以拥有两个运行性能模式截然不同的完全相同的系统。与升级的关联可能是巧合。

关于您的诊断数据的说明：您确实希望输出sar -q帮助您诊断此类问题。 iostat实际上仅检查问题可能来源的一小部分。

Answer

AWS 过度竞争其 VM 服务器；他们假设并非每个人都会消耗分配给他们的所有资源，因此亚马逊可以从部署的每台硬件中赚取更多钱。因此，您可以拥有两个运行性能模式截然不同的完全相同的系统。与升级的关联可能是巧合。

关于您的诊断数据的说明：您确实希望输出sar -q帮助您诊断此类问题。 iostat实际上仅检查问题可能来源的一小部分。

Question 2

另外，不要一直盯着负载。这很棘手。您的 I/O 状态和 CPU 状态更容易读取，也不太可能欺骗您。

举个例子：建立 10 个 nfs-mount。关闭 nfs-server。现在您的机器上有 10 个（多一点）负载，并且没有 I/O 或 CPU 使用率。

您的 nfs-mounts 想知道 nfs-server 何时恢复。因此，它们将自己放入运行队列，所有十个。当调度程序轮到它们时，它们会检查 nfs-server 是否恢复，这需要几微秒的时间，由于它仍然处于关闭状态，它们会再次将自己放回运行队列。运行队列中的十个程序负载为 10.0

Answer

另外，不要一直盯着负载。这很棘手。您的 I/O 状态和 CPU 状态更容易读取，也不太可能欺骗您。

举个例子：建立 10 个 nfs-mount。关闭 nfs-server。现在您的机器上有 10 个（多一点）负载，并且没有 I/O 或 CPU 使用率。

您的 nfs-mounts 想知道 nfs-server 何时恢复。因此，它们将自己放入运行队列，所有十个。当调度程序轮到它们时，它们会检查 nfs-server 是否恢复，这需要几微秒的时间，由于它仍然处于关闭状态，它们会再次将自己放回运行队列。运行队列中的十个程序负载为 10.0

Question 3

冒着“我也有同样的问题”的风险，我们在 EC2 上也看到了同样的问题。这不仅仅是一个过度使用的问题——问题似乎仅限于 3.2.20 而非 3.2.12 的实例（在我们的例子中是 XL）。

在我们的案例中，这基本上是幻象负载——我们看到 3.2.20 实例的平均负载约为 0.75；3.2.12 实例的平均负载接近 0.01。然而，我们并不确信这些实例真的比其他实例慢。

Answer

冒着“我也有同样的问题”的风险，我们在 EC2 上也看到了同样的问题。这不仅仅是一个过度使用的问题——问题似乎仅限于 3.2.20 而非 3.2.12 的实例（在我们的例子中是 XL）。

在我们的案例中，这基本上是幻象负载——我们看到 3.2.20 实例的平均负载约为 0.75；3.2.12 实例的平均负载接近 0.01。然而，我们并不确信这些实例真的比其他实例慢。

相关内容