服务器超载，好像内存不足，但事实并非如此

Question 1

有大量可用内存，但这些区域完全碎片化：

Node 0 Normal: 1648026*4kB 0*8kB 0*16kB 0*32kB 0*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 6592104kB
Node 1 Normal: 8390977*4kB 1181188*8kB 0*16kB 0*32kB 0*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB

剩下的非零顺序页面非常少，一个区域中根本没有剩余的页面。

我无法保证任何事情，但您可能想尝试关闭 ksmd 并重新压缩内存。压缩只会在高阶页面分配时自动调用，并且永远不会调用 oom-killer，因此我假设系统已尝试从阶数 2 或 3 分配内存并卡住了。

压缩内存运行echo 1 >/proc/sys/vm/compact_memory

这个问题只有这么多内容，但我怀疑ksmd是通过扫描两个虚拟机中重复的页面并将它们全部交换而导致碎片化的。

Answer

有大量可用内存，但这些区域完全碎片化：

Node 0 Normal: 1648026*4kB 0*8kB 0*16kB 0*32kB 0*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 6592104kB
Node 1 Normal: 8390977*4kB 1181188*8kB 0*16kB 0*32kB 0*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB

剩下的非零顺序页面非常少，一个区域中根本没有剩余的页面。

我无法保证任何事情，但您可能想尝试关闭 ksmd 并重新压缩内存。压缩只会在高阶页面分配时自动调用，并且永远不会调用 oom-killer，因此我假设系统已尝试从阶数 2 或 3 分配内存并卡住了。

压缩内存运行echo 1 >/proc/sys/vm/compact_memory

这个问题只有这么多内容，但我怀疑ksmd是通过扫描两个虚拟机中重复的页面并将它们全部交换而导致碎片化的。

Question 2

@Matthew 的答案应该被标记为该问题的解决方案。/proc/buddyinfo清楚地显示了碎片（由于 ksmd 或其他行为）。内存压缩是一个有效的解决方案。

我们刚刚在我们的服务器上遇到了同样的问题：

# cat /proc/buddyinfo
Node 0, zone      DMA      1      0      1      0      0      1      0      0      0      1      3
Node 0, zone    DMA32   4941  14025  10661   1462   1715    154      1      0      0      0      0
Node 0, zone   Normal 420283 217678   3852      3      1      0      1      1      1      0      0
Node 1, zone   Normal 1178429 294431  21420    340      7      2      1      2      0      0      0

这清楚地显示了碎片化，因为大多数内存分散在许多小的内存块中（左边是大数，右边是零）。

现在压缩解决了这个问题：

# echo 1 >/proc/sys/vm/compact_memory
# cat /proc/buddyinfo
Node 0, zone      DMA      1      0      1      0      0      1      0      0      0      1      3
Node 0, zone    DMA32    485   1746   8588   3311   2076    505     98     19      3      0      0
Node 0, zone   Normal  83764  22474   8597   3130   1971   1421   1090    808    556    358     95
Node 1, zone   Normal  51928  36053  36093  29024  21498  13148   5719   1405    151      8      0

Answer

@Matthew 的答案应该被标记为该问题的解决方案。/proc/buddyinfo清楚地显示了碎片（由于 ksmd 或其他行为）。内存压缩是一个有效的解决方案。

我们刚刚在我们的服务器上遇到了同样的问题：

# cat /proc/buddyinfo
Node 0, zone      DMA      1      0      1      0      0      1      0      0      0      1      3
Node 0, zone    DMA32   4941  14025  10661   1462   1715    154      1      0      0      0      0
Node 0, zone   Normal 420283 217678   3852      3      1      0      1      1      1      0      0
Node 1, zone   Normal 1178429 294431  21420    340      7      2      1      2      0      0      0

这清楚地显示了碎片化，因为大多数内存分散在许多小的内存块中（左边是大数，右边是零）。

现在压缩解决了这个问题：

# echo 1 >/proc/sys/vm/compact_memory
# cat /proc/buddyinfo
Node 0, zone      DMA      1      0      1      0      0      1      0      0      0      1      3
Node 0, zone    DMA32    485   1746   8588   3311   2076    505     98     19      3      0      0
Node 0, zone   Normal  83764  22474   8597   3130   1971   1421   1090    808    556    358     95
Node 1, zone   Normal  51928  36053  36093  29024  21498  13148   5719   1405    151      8      0

Question 3

如果您使用带有 -snapshot 的 qemu 来避免磁盘映像被修改，qemu 可能会这样做，当它将磁盘修改保存在临时文件中时，该文件可能会填满分区或 RAM 磁盘（如 /dev/shm）。

有关更多信息，请访问http://blog.nielshorn.net/2011/03/qemu-snapshots-temporary-files-where-they-go-and-how-to-change-that/

简而言之，上面的页面说临时文件在打开后被取消链接，因此即使它占用了空间，也无法在文件系统中看到它。为了避免这些问题，您应该确保在启动 qemu 之前环境变量 TMPDIR 指向具有足够空间的目录。

Answer

如果您使用带有 -snapshot 的 qemu 来避免磁盘映像被修改，qemu 可能会这样做，当它将磁盘修改保存在临时文件中时，该文件可能会填满分区或 RAM 磁盘（如 /dev/shm）。

有关更多信息，请访问http://blog.nielshorn.net/2011/03/qemu-snapshots-temporary-files-where-they-go-and-how-to-change-that/

简而言之，上面的页面说临时文件在打开后被取消链接，因此即使它占用了空间，也无法在文件系统中看到它。为了避免这些问题，您应该确保在启动 qemu 之前环境变量 TMPDIR 指向具有足够空间的目录。

Question 4

通过减少分配给客户机的内存解决了这个问题。现在有 3 个客户机，每个客户机有 80 GB RAM，留给主机系统大约 150 GB RAM：

# free -h
              total        used        free      shared  buff/cache   available
Mem:           377G        243G         29G        1,9G        104G        132G

感觉像是浪费了大量内存，但现在一切都稳定了。

Answer

通过减少分配给客户机的内存解决了这个问题。现在有 3 个客户机，每个客户机有 80 GB RAM，留给主机系统大约 150 GB RAM：

# free -h
              total        used        free      shared  buff/cache   available
Mem:           377G        243G         29G        1,9G        104G        132G

感觉像是浪费了大量内存，但现在一切都稳定了。

服务器超载，好像内存不足，但事实并非如此

答案1

答案2

答案3

答案4

相关内容