什么会导致平均负载为 10-30（而不是 10-30%）

Question

原始负载平均数只是数字，而不是任何绝对值的百分比。负载平均数和 CPU 利用率（通常以百分比表示）不是一回事。您应该同时监控两者。

平均负载的近似描述（至少在 Linux 上）是“可以运行的进程数”，它非常依赖于您的系统所做的事情。经验法则是每个 CPU 的 1 个负载单元是“繁忙的”，这解释了check_load-r 参数。高 I/O 和短寿命进程确实会搞砸这一点。您可以在其他地方找到更好的描述。

回答您的问题：30 的负载可能是由 30 个进程或线程引起的，它们都准备好让您的 CPU 全速运行，没有任何睡眠/轮询。

运行良好top，对你的负荷有了一个大致的了解，这些是你应该开始使用的数字，并随着时间的推移进行调整以尽量减少错误警报，不过我建议将你的临界阈值加倍。

在我看来，nrpe.cfg 样本值对于典型的服务器工作负载来说太高了。我猜它们足够高，不会引起“NRPE 一直告诉我平均负载太高”的问题。奇怪的是，check_load它本身的默认值是 0,0,0 和 0,0,0。

Answer 1

原始负载平均数只是数字，而不是任何绝对值的百分比。负载平均数和 CPU 利用率（通常以百分比表示）不是一回事。您应该同时监控两者。

平均负载的近似描述（至少在 Linux 上）是“可以运行的进程数”，它非常依赖于您的系统所做的事情。经验法则是每个 CPU 的 1 个负载单元是“繁忙的”，这解释了check_load-r 参数。高 I/O 和短寿命进程确实会搞砸这一点。您可以在其他地方找到更好的描述。

回答您的问题：30 的负载可能是由 30 个进程或线程引起的，它们都准备好让您的 CPU 全速运行，没有任何睡眠/轮询。

运行良好top，对你的负荷有了一个大致的了解，这些是你应该开始使用的数字，并随着时间的推移进行调整以尽量减少错误警报，不过我建议将你的临界阈值加倍。

在我看来，nrpe.cfg 样本值对于典型的服务器工作负载来说太高了。我猜它们足够高，不会引起“NRPE 一直告诉我平均负载太高”的问题。奇怪的是，check_load它本身的默认值是 0,0,0 和 0,0,0。

相关内容