RAM 中的操作系统缓存不断增加，导致系统 CPU 使用率过高

2024-5-29 • tag-icon

我在服务器上遇到了一个奇怪的问题，我以前从未见过。在一台内存约为 30G 的机器上，有一个应用程序占用了约 10G（分布在数百个进程中）。随着时间的推移，操作系统开始用缓存和缓冲区填满备用内存（对于 Linux 来说，这完全正常）。我以前见过这种情况，没有任何问题，但在这台机器上，随着空闲内存量的减少，系统 CPU 在 256M 左右时会发疯（8 个 CPU 上 100% 占用，持续约 3 分钟）。我猜操作系统正在使用所有的 CPU 来重新分配内存以恢复一些可用空间。

据我了解，Linux 内存管理应该尽可能多地使用 RAM 中的可用空间进行操作系统级缓存，然后在需要时将其交给任何需要它的应用程序，从过去的经验来看，这对 CPU 来说并不是一次痛苦的经历。这种情况一直在发生。那么为什么这里会有所不同呢？

我附上了一小部分 vmstat 输出，用于相关指标（每 2 秒捕获一次）。您可以看到，当可用内存达到 ~256M 时，系统 CPU（第 14 列，从右边数第 3 个）开始变得繁忙，然后在大约 30 秒后变得非常疯狂。

r    b   swpd  free     buff     cache     si  so  bi   bo    in     cs     us  sy   id  wa
1    0   0     293876   5022848  18797528  0   0   206  1712  20924  12845  29  9    61  1
6    0   0     285324   5022848  18797656  0   0   0    0     18795  11382  23  9    68  0
2    0   0     292320   5022848  18797916  0   0   26   2022  19933  12068  27  10   62  1
3    0   0     264492   5022848  18798196  0   0   14   0     20705  15412  30  9    61  0
3    0   0     254880   5022848  18798804  0   0   190  532   16207  9723   31  8    60  0
17   0   0     255588   5021292  18783092  0   0   24   2     13521  7471   27  42   31  0
3    0   0     288396   5020536  18771496  0   0   0    2     14277  8458   24  29   47  0
4    0   0     299560   5020180  18761296  0   0   0    448   8778   5099   21  30   49  0
2    0   0     290908   5019376  18753656  0   0   0    2     9027   5115   27  19   54  0
7    0   0     306060   5018544  18746740  0   0   38   442   8398   5134   20  17   63  0
1    0   0     317140   5018244  18744252  0   0   46   0     9707   5822   22  17   61  0
4    0   0     282268   5017748  18741836  0   0   12   2     10203  6165   26  12   62  0
1    0   0     322548   5017500  18738024  0   0   2    444   10593  6277   23  16   61  0
4    0   0     314936   5017280  18734564  0   0   6    8     9473   5680   25  15   61  0
13   0   0     316976   5017044  18731128  0   0   0    622   12481  7353   33  17   49  0
5    0   0     324952   5016908  18728552  0   0   10   222   11071  6965   22  13   65  0
2    0   0     324692   5016908  18728344  0   0   0    526   10612  6602   24  10   66  0
3    0   0     312312   5017136  18727644  0   0   156  1050  12316  7472   26  10   63  1
2    1   0     323392   5017260  18726848  0   0   66   26    11643  7152   23  13   64  0
8    1   0     318956   5017124  18723772  0   0   20   518   17042  9543   31  22   46  1
1    0   0     317816   5017124  18725428  0   0   0    2854  11704  6951   21  9    67  3
18   0   0     325136   5014492  18707212  0   0   0    32    7619   3845   16  58   27  0
46   0   0     323508   5012980  18692036  0   0   0    562   3939   917    3   92   5   0
71   0   0     299164   5009680  18675476  0   0   0    6     4696   1304   8   90   1   0
75   0   0     205364   5007744  18657228  0   0   36   340   6699   2556   18  82   0   0
75   0   0     221660   5005956  18636480  0   0   68   0     3942   943    4   95   0   0
84   0   0     223788   5004624  18618380  0   0   0    0     2843   335    3   97   1   0
44   0   0     214956   5002464  18599872  0   0   0    0     4696   1301   5   92   3   0
37   0   0     223804   4999964  18577076  0   0   0    0     3281   521    1   98   0   0
82   0   0     266888   4995768  18557264  0   0   0    1760  4595   766    4   96   1   0
91   0   0     260148   4993964  18541192  0   0   0    0     3780   866    6   94   0   0
74   0   0     279796   4990464  18524980  0   0   0    4     4096   926    4   96   0   0
44   0   0     274796   4984268  18503492  0   0   0    0     6316   2142   3   95   3   0
48   0   0     295616   4981824  18482616  0   0   0    0     2561   227    1   99   1   0

我还附上了监控工具的截图，以便更直观地展示内存的使用情况。在此图中，底部（紫色）线是 RAM 中剩余的实际可用空间，每次达到 256M 时都会导致 CPU 峰值。

在此处输入图片描述

顺便说一句，这台机器上的交换已被禁用（如果您无法从 vmstats 中看出来）。

Linux 是 3.11.0，Ubuntu 13.10
不是 Java 应用程序，而是 PHP/Apache

答案1

我认为 CPU 只是用来扫描页表以查找要释放的帧。不过，这个数字似乎有点高，我有一个带有小页面的系统，400 GB RAM，但它并没有表现出如此戏剧性的行为。很难说根本原因是什么，但我想提出一个解决方法。启用大量大页面（通过vm.nr_hugepages）。这将大大减少页表的大小，因为大页面有 2 MiB，比小页面大 512 倍。本文介绍了类似问题的解决方案。

一个限制是大页面不可交换，但这与您的情况似乎无关。

答案1

相关内容