问题：

Question 1

因为有很多评论，我想根据我的观察给出答案。

根据您的输出https://gist.github.com/christian-marie/7bc845d2da7847534104

我们可以确定以下内容：

尝试的内存分配的 GFP_MASK 可以执行以下操作。
- 可以进入紧急池（I思考这意味着访问区域高水位以下的数据）
- 不要使用紧急储备（我思考这意味着不允许访问低于最小水位的内存）
- 从其中一个正常区域分配。
- 可以交换以腾出空间。
- 可以删除缓存以腾出空间。

区域碎片位于此处：

[3443189.780792] Node 0 Normal: 3300*4kB (UEM) 8396*8kB (UEM) 4218*16kB (UEM) 76*32kB (UEM) 12*64kB (M) 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 151056kB
[3443189.780801] Node 1 Normal: 26667*4kB (UEM) 6084*8kB (UEM) 2040*16kB (UEM) 96*32kB (UEM) 22*64kB (UEM) 4*128kB (U) 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 192972kB

当时的内存使用情况如下：

[3443189.780759] Node 0 Normal free:149520kB min:40952kB low:51188kB high:61428kB active_anon:9694208kB inactive_anon:1054236kB active_file:7065912kB inactive_file:7172412kB unevictable:0kB isolated(anon):5452kB isolated(file):3616kB present:30408704kB managed:29881160kB mlocked:0kB dirty:0kB writeback:0kB mapped:25440kB shmem:743788kB slab_reclaimable:1362240kB slab_unreclaimable:783096kB kernel_stack:29488kB pagetables:43748kB unstable:0kB bounce:0kB free_cma:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? no
[3443189.780766] Node 1 Normal free:191444kB min:45264kB low:56580kB high:67896kB active_anon:11371988kB inactive_anon:1172444kB active_file:8084140kB inactive_file:8556980kB unevictable:0kB isolated(anon):4388kB isolated(file):4676kB present:33554432kB managed:33026648kB mlocked:0kB dirty:0kB writeback:0kB mapped:45400kB shmem:2263296kB slab_reclaimable:1606604kB slab_unreclaimable:438220kB kernel_stack:55936kB pagetables:44944kB unstable:0kB bounce:0kB free_cma:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? no

在页面分配失败输出中，每个区域的碎片情况都很糟糕。有很多空闲的 0 阶页面，而高阶页面则少得多甚至没有。“好”的结果将是每个阶都有充足的空闲页面，阶数越高，空闲页面的大小就越小。如果高阶页面 5 及以上为 0，则表示高阶分配存在碎片和匮乏。

我目前没有看到令人信服的证据表明此期间的碎片与 slab 缓存有关。在生成的内存统计数据中，我们可以看到以下内容

Node 0 = active_anon:9694208kB inactive_anon:1054236kB
Node 1 = active anon:11371988kB inactive_anon:1172444kB

用户空间没有分配大页面，因此用户空间将始终占用 0 阶内存。因此，两个区域总共有超过 22GiB 的可碎片整理内存。

我无法解释的行为

当高阶分配失败时，我的理解是内存压缩是总是尝试允许高阶内存分配区域发生并成功。为什么没有发生这种情况？如果确实发生了，为什么在有 22GiB 内存可供重新排序时找不到任何内存进行碎片整理？

我认为我可以解释的行为

这需要更多研究才能正确理解，但我相信自动交换/删除一些页面缓存的分配能力可能不适用于此，因为仍然有大量可用内存，因此不会发生回收。只是在高阶中还不够。

虽然有大量可用内存和每个区域中剩余一些订单 4 请求，“每个订单的所有可用内存总计并从实际可用内存中扣除”问题导致“可用内存”低于“最小”水位，这导致实际分配失败。

Answer

因为有很多评论，我想根据我的观察给出答案。

根据您的输出https://gist.github.com/christian-marie/7bc845d2da7847534104

我们可以确定以下内容：

尝试的内存分配的 GFP_MASK 可以执行以下操作。
- 可以进入紧急池（I思考这意味着访问区域高水位以下的数据）
- 不要使用紧急储备（我思考这意味着不允许访问低于最小水位的内存）
- 从其中一个正常区域分配。
- 可以交换以腾出空间。
- 可以删除缓存以腾出空间。

区域碎片位于此处：

[3443189.780792] Node 0 Normal: 3300*4kB (UEM) 8396*8kB (UEM) 4218*16kB (UEM) 76*32kB (UEM) 12*64kB (M) 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 151056kB
[3443189.780801] Node 1 Normal: 26667*4kB (UEM) 6084*8kB (UEM) 2040*16kB (UEM) 96*32kB (UEM) 22*64kB (UEM) 4*128kB (U) 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 192972kB

当时的内存使用情况如下：

[3443189.780759] Node 0 Normal free:149520kB min:40952kB low:51188kB high:61428kB active_anon:9694208kB inactive_anon:1054236kB active_file:7065912kB inactive_file:7172412kB unevictable:0kB isolated(anon):5452kB isolated(file):3616kB present:30408704kB managed:29881160kB mlocked:0kB dirty:0kB writeback:0kB mapped:25440kB shmem:743788kB slab_reclaimable:1362240kB slab_unreclaimable:783096kB kernel_stack:29488kB pagetables:43748kB unstable:0kB bounce:0kB free_cma:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? no
[3443189.780766] Node 1 Normal free:191444kB min:45264kB low:56580kB high:67896kB active_anon:11371988kB inactive_anon:1172444kB active_file:8084140kB inactive_file:8556980kB unevictable:0kB isolated(anon):4388kB isolated(file):4676kB present:33554432kB managed:33026648kB mlocked:0kB dirty:0kB writeback:0kB mapped:45400kB shmem:2263296kB slab_reclaimable:1606604kB slab_unreclaimable:438220kB kernel_stack:55936kB pagetables:44944kB unstable:0kB bounce:0kB free_cma:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? no

在页面分配失败输出中，每个区域的碎片情况都很糟糕。有很多空闲的 0 阶页面，而高阶页面则少得多甚至没有。“好”的结果将是每个阶都有充足的空闲页面，阶数越高，空闲页面的大小就越小。如果高阶页面 5 及以上为 0，则表示高阶分配存在碎片和匮乏。

我目前没有看到令人信服的证据表明此期间的碎片与 slab 缓存有关。在生成的内存统计数据中，我们可以看到以下内容

Node 0 = active_anon:9694208kB inactive_anon:1054236kB
Node 1 = active anon:11371988kB inactive_anon:1172444kB

用户空间没有分配大页面，因此用户空间将始终占用 0 阶内存。因此，两个区域总共有超过 22GiB 的可碎片整理内存。

我无法解释的行为

当高阶分配失败时，我的理解是内存压缩是总是尝试允许高阶内存分配区域发生并成功。为什么没有发生这种情况？如果确实发生了，为什么在有 22GiB 内存可供重新排序时找不到任何内存进行碎片整理？

我认为我可以解释的行为

这需要更多研究才能正确理解，但我相信自动交换/删除一些页面缓存的分配能力可能不适用于此，因为仍然有大量可用内存，因此不会发生回收。只是在高阶中还不够。

虽然有大量可用内存和每个区域中剩余一些订单 4 请求，“每个订单的所有可用内存总计并从实际可用内存中扣除”问题导致“可用内存”低于“最小”水位，这导致实际分配失败。

Question 2

我们在 IP over IB 上使用 Ceph 时遇到了同样的 TX 数据包丢失问题。在我们的案例中，问题是由于 MTU 大小过大（64K）造成的。有人选择了较大的 MTU 大小（64K）来提高吞吐量。但是，当我们长时间运行 Ceph 并承受大量负载时，由于许多 TX 数据包丢失，吞吐量和 osd 延迟变得更糟。当我们将 MTU 大小更改为 9K 时，吞吐量和延迟变得稳定。我们还在考虑根据以下文章将 MTU 大小减小到 8K。 https://www.ibm.com/support/knowledgecenter/en/linuxonibm/liaag/wehs/l0wehs00_otherconfigurationconsiderationoptimalmtusize.htm

Answer

我们在 IP over IB 上使用 Ceph 时遇到了同样的 TX 数据包丢失问题。在我们的案例中，问题是由于 MTU 大小过大（64K）造成的。有人选择了较大的 MTU 大小（64K）来提高吞吐量。但是，当我们长时间运行 Ceph 并承受大量负载时，由于许多 TX 数据包丢失，吞吐量和 osd 延迟变得更糟。当我们将 MTU 大小更改为 9K 时，吞吐量和延迟变得稳定。我们还在考虑根据以下文章将 MTU 大小减小到 8K。 https://www.ibm.com/support/knowledgecenter/en/linuxonibm/liaag/wehs/l0wehs00_otherconfigurationconsiderationoptimalmtusize.htm

问题：

问题：

迄今为止的解决方法。

我的问题：

更新：

附加问题：有什么更好的方法可以找到这种碎片的根源？

额外要求的信息：

跟进：性能信息和压缩相关的事情

答案1

答案2

相关内容