如何知道 Linux 服务器上是否需要更多 CPU 核心

如何知道 Linux 服务器上是否需要更多 CPU 核心

我们有以下 Linux red-hat VM 服务器详细信息(每个服务器都包含在 docker 容器下运行的应用程序)

Linux redhat version - 7.6
number of CPU cores - 16

我们怀疑核心数量不够,因为 CPU 空闲率较低 -40%-50% 有时甚至低于 40%,尽管 CPU 平均负载在正常范围内9 - 12

我们进行了以下测试

from sar -u 2 5
Linux 3.10.0-862.el7.x86_64 (bigdata-machine03.kondel.com)  08/21/2022      _x86_64_        (16 CPU)

02:14:07 PM     CPU     %user     %nice   %system   %iowait    %steal     %idle
02:14:09 PM     all     36.82      0.00     14.64      0.57      0.00     47.97
02:14:11 PM     all     35.50      0.00     16.01      0.82      0.00     47.68
02:14:13 PM     all     21.52      0.00     10.90      0.69      0.00     66.89
02:14:15 PM     all     21.45      0.00     10.96      0.63      0.00     66.97
02:14:17 PM     all     22.28      0.00     10.15      0.78      0.00     66.78
Average:        all     27.51      0.00     12.53      0.70      0.00     59.27


vmstat 1 21
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 6  0 269568 26388424      0 29302496    0    0     0   419    0    0 19  9 72  0  0
 5  0 269568 26257112      0 29424172    0    0     0 131098 9739 4328 24  8 67  1  0
 5  0 269568 26124560      0 29548576    0    0     0 66573 8790 2414 24  8 67  0  0
 5  0 269568 25992844      0 29671288    0    0     0 146499 8701 2124 23  9 67  1  0
 5  0 269568 25861804      0 29795272    0    0     0 114700 9146 4341 23  8 67  1  0
 5  0 269568 25726984      0 29924684    0    0     0 131127 10060 4263 24  8 67  1  0
 5  0 269568 25592612      0 30049624    0    0     0 131098 9127 3958 24  8 67  1  0
 5  0 269568 25462696      0 30172108    0    0     0 131369 10000 4500 24  8 67  1  0
 5  0 269568 25325716      0 30297560    0    0     0 98332 8723 2942 24  8 67  1  0
 6  0 269568 25181400      0 30436356    0    0     0 98324 8585 2740 24  7 68  1  0
 6  0 269568 25044572      0 30560928    0    0     0 163876 9983 4029 24  8 67  1  0
 4  1 269568 24903352      0 30693816    0    0     0 157720 8468 3220 25  8 67  1  0
 6  0 269568 24770240      0 30819368    0    0     0 71702 9439 5035 24  7 67  1  0
 5  0 269568 24633396      0 30946824    0    0     0 131115 8974 3863 25  7 67  1  0
 5  0 269568 24508664      0 31064812    0    0     0 163873 9523 4525 23  8 67  1  0
 4  1 269568 24366044      0 31196540    0    0     0 65547 8381 2131 24  8 67  0  0
 5  0 269568 24243064      0 31314580    0    0     0 98326 8936 4413 24  7 68  1  0
 5  0 269568 24115296      0 31436264    0    0     0 163872 9698 4941 23  7 68  2  0
 5  0 269568 23974156      0 31569112    0    0     0 163876 9298 4221 24  7 68  2  0
 4  1 269568 23835196      0 31700900    0    0     0 65546 8262 2000 25  7 67  0  0
15  0 269568 22972552      0 31833020    0    0     0 131101 32338 4679 55 25 20  1  0



 # uptime
 14:14:31 up 149 days, 23:06,  1 user,  load average: 9.31, 9.32, 9.48

iostat
Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda              14.36         0.58      6648.36    7483539 86140749988
dm-0              0.27         0.12         2.10    1503954   27251899
dm-1              0.10         0.19         0.20    2427092    2539536
dm-2             14.18         0.27      6646.06    3449263 86110943670

为了添加额外的 CPU 核心,我们应该考虑什么 Redhat 系列?

答案1

据我所知,平均有 6-7 个正在运行的进程(来自 vmstat)。队列uptime中有 9 个正在运行的进程。当你不断达到12个进程时,你可能会开始考虑将来升级。

你的CPU使用率比较小,当你一开始达到75%的时候,50%的时候就应该明智地考虑一下未来。

你应该注意的是中断。 >100K 对我来说有点太多了。但这在很大程度上取决于您运行的程序。但要往这个方向挖掘。

答案2

我亲自监控 RES 线来/proc/interrupts报告重新调度中断的数量。 (在没有 cpu 固定的情况下)

每当某个 cpu 正忙并且同一调度程序队列中设置的另一个任务(包括 irq 线程中的 irq 处理)也可以运行(在同一 cpu 上)时,这些中断就会发生。并且调度程序设法找到一个空闲 cpu 来执行该任务被迁移。

因此,RES 越少,CPU 工作队列中多个可运行任务的出现次数就越少,或者调度程序设法找到中间 CPU 进行迁移的次数就越少。

当然,后者会肯定地告诉你,增加CPU数量对你的工作负载是有利的。

为了做出决定,我建议您从一些最小工作负载(相对于工作负载运行的最小任务总数)开始对系统进行基准测试,然后逐渐增加负载并观察 RES(总计)的增加。
当曲线每秒 RES = f(任务数量)停止显着增加时……

相关内容