我们有以下 Linux red-hat VM 服务器详细信息(每个服务器都包含在 docker 容器下运行的应用程序)
Linux redhat version - 7.6
number of CPU cores - 16
我们怀疑核心数量不够,因为 CPU 空闲率较低 -40%-50% 有时甚至低于 40%,尽管 CPU 平均负载在正常范围内9 - 12
我们进行了以下测试
from sar -u 2 5
Linux 3.10.0-862.el7.x86_64 (bigdata-machine03.kondel.com) 08/21/2022 _x86_64_ (16 CPU)
02:14:07 PM CPU %user %nice %system %iowait %steal %idle
02:14:09 PM all 36.82 0.00 14.64 0.57 0.00 47.97
02:14:11 PM all 35.50 0.00 16.01 0.82 0.00 47.68
02:14:13 PM all 21.52 0.00 10.90 0.69 0.00 66.89
02:14:15 PM all 21.45 0.00 10.96 0.63 0.00 66.97
02:14:17 PM all 22.28 0.00 10.15 0.78 0.00 66.78
Average: all 27.51 0.00 12.53 0.70 0.00 59.27
vmstat 1 21
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
6 0 269568 26388424 0 29302496 0 0 0 419 0 0 19 9 72 0 0
5 0 269568 26257112 0 29424172 0 0 0 131098 9739 4328 24 8 67 1 0
5 0 269568 26124560 0 29548576 0 0 0 66573 8790 2414 24 8 67 0 0
5 0 269568 25992844 0 29671288 0 0 0 146499 8701 2124 23 9 67 1 0
5 0 269568 25861804 0 29795272 0 0 0 114700 9146 4341 23 8 67 1 0
5 0 269568 25726984 0 29924684 0 0 0 131127 10060 4263 24 8 67 1 0
5 0 269568 25592612 0 30049624 0 0 0 131098 9127 3958 24 8 67 1 0
5 0 269568 25462696 0 30172108 0 0 0 131369 10000 4500 24 8 67 1 0
5 0 269568 25325716 0 30297560 0 0 0 98332 8723 2942 24 8 67 1 0
6 0 269568 25181400 0 30436356 0 0 0 98324 8585 2740 24 7 68 1 0
6 0 269568 25044572 0 30560928 0 0 0 163876 9983 4029 24 8 67 1 0
4 1 269568 24903352 0 30693816 0 0 0 157720 8468 3220 25 8 67 1 0
6 0 269568 24770240 0 30819368 0 0 0 71702 9439 5035 24 7 67 1 0
5 0 269568 24633396 0 30946824 0 0 0 131115 8974 3863 25 7 67 1 0
5 0 269568 24508664 0 31064812 0 0 0 163873 9523 4525 23 8 67 1 0
4 1 269568 24366044 0 31196540 0 0 0 65547 8381 2131 24 8 67 0 0
5 0 269568 24243064 0 31314580 0 0 0 98326 8936 4413 24 7 68 1 0
5 0 269568 24115296 0 31436264 0 0 0 163872 9698 4941 23 7 68 2 0
5 0 269568 23974156 0 31569112 0 0 0 163876 9298 4221 24 7 68 2 0
4 1 269568 23835196 0 31700900 0 0 0 65546 8262 2000 25 7 67 0 0
15 0 269568 22972552 0 31833020 0 0 0 131101 32338 4679 55 25 20 1 0
# uptime
14:14:31 up 149 days, 23:06, 1 user, load average: 9.31, 9.32, 9.48
iostat
Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sda 14.36 0.58 6648.36 7483539 86140749988
dm-0 0.27 0.12 2.10 1503954 27251899
dm-1 0.10 0.19 0.20 2427092 2539536
dm-2 14.18 0.27 6646.06 3449263 86110943670
为了添加额外的 CPU 核心,我们应该考虑什么 Redhat 系列?
答案1
据我所知,平均有 6-7 个正在运行的进程(来自 vmstat)。队列uptime
中有 9 个正在运行的进程。当你不断达到12个进程时,你可能会开始考虑将来升级。
你的CPU使用率比较小,当你一开始达到75%的时候,50%的时候就应该明智地考虑一下未来。
你应该注意的是中断。 >100K 对我来说有点太多了。但这在很大程度上取决于您运行的程序。但要往这个方向挖掘。
答案2
我亲自监控 RES 线来/proc/interrupts
报告重新调度中断的数量。 (在没有 cpu 固定的情况下)
每当某个 cpu 正忙并且同一调度程序队列中设置的另一个任务(包括 irq 线程中的 irq 处理)也可以运行(在同一 cpu 上)时,这些中断就会发生。并且调度程序设法找到一个空闲 cpu 来执行该任务被迁移。
因此,RES 越少,CPU 工作队列中多个可运行任务的出现次数就越少,或者调度程序设法找到中间 CPU 进行迁移的次数就越少。
当然,后者会肯定地告诉你,增加CPU数量对你的工作负载是有利的。
为了做出决定,我建议您从一些最小工作负载(相对于工作负载运行的最小任务总数)开始对系统进行基准测试,然后逐渐增加负载并观察 RES(总计)的增加。
当曲线每秒 RES = f(任务数量)停止显着增加时……