该服务器是否超载(htop 截图)

该服务器是否超载(htop 截图)

我不是服务器专家,我认为它看起来超载了,但我不确定。你会说这个服务器超载了吗? 在此处输入图片描述

答案1

您的服务器只有两个 CPU,LA(平均负载)在 10-15 范围内。这意味着正在运行的进程需要的 CPU 时间超过了 CPU 可以处理的时间。您可以在本文作者:布伦丹·格雷格(Brendan Gregg)。

请注意,LA 只是一个指标,即使您的系统没有获得所需的所有 CPU 时间,它仍然有可能获得足够的 CPU 时间来合理地满足最终用户的请求。在对此服务器做出任何决定之前,您需要检查其他指标,但如果您的用户已经抱怨,那么解决方案很明确 - 获取具有更多 CPU 的实例。

答案2

定义‘重载’。

如果你只是根据平均负载来判断,那么是的,它确实超载了(大约 5-7.5 倍)。但是,如果你的工作负载是大规模并行的并且主要受 CPU 限制,那么平均负载才是一个合理的指标。平均负载本质上跟踪平均进程数可以在过去 1/5/15 分钟内运行。

然而,根据您的两个屏幕截图,您的瞬时 CPU 利用率并非始终达到系统能力的 100%。这与高平均负载相结合,意味着需要运行许多进程,但它们运行得很快,然后就完成了。对于提供网络服务的系统来说,这是相当正常的,因为大多数网络服务不是受 CPU 限制,但受 IO 限制。这意味着平均负载不是确定系统资源利用率的良好指标。

你真正应该在这里看到的(实际上,你真正应该首先看到的是任何网络服务)是服务本身的性能指标。在大多数情况下,相关的是服务所服务的各种请求类型的延迟测量(更具体地说,您通常希望关心平均延迟和第 95 或第 99 百分位或峰值延迟之一)。如果您htop无法为您跟踪这一点,您需要查看另一个工具,例如网络数据(免责声明,我在 Netdata 工作)或普罗米修斯

但更好的是:用户是否报告了问题?如果答案是否定的,没有报告问题,那么服务器是否“超载”可能无关紧要,因为一切都运行良好。

相关内容