为什么在将透明大表碎片整理设置为“延迟”的系统上， compact_stall 会增加？

2024-6-2 • tag-icon

为什么在将透明大表碎片整理设置为“延迟”的系统上， compact_stall 会增加？

我们在 docker 中运行一个反向代理应用程序，该应用程序对网络的占用非常大。Dockerd 偶尔会使用 madv_hugepage 分配内存，我们观察到这有时会导致应用程序停顿，而 dockerd 会暂停清空容器日志缓冲区并发生阻塞写入。这些停顿时间足够长，会导致大量流量丢失。

检查 buddyinfo 确认这些问题发生在我们没有可用的高阶分配时。通常是繁忙的主机，正常运行时间很长。

我们已经采取措施从 [madvise] 切换到 [defer]，以试图限制 compact 停滞的影响，同时保留透明大页面的好处，而不是完全禁用它们。我们还没有再次遇到这个问题，但现在还为时过早。

这些设置是由我们添加的 systemd 单元在启动期间设置的。

[foobar.local:/root]:mgmt:$ cat /sys/kernel/mm/transparent_hugepage/defrag
always [defer] defer+madvise madvise never

[foobar.local:/root]:mgmt:$ cat /sys/kernel/mm/transparent_hugepage/enabled
always [madvise] never

[foobar.local:/root]:mgmt:$ cat /sys/kernel/mm/transparent_hugepage/khugepaged/defrag
1

用简单的英语来说，我理解这意味着...仅在 madv_hugepage 区域上分配一个 thp，如果不可用，则回退并唤醒 kswapd/kcompactd。khugepaged 稍后将尝试将页面折叠成 thp。

[foobar.local:/root]:mgmt:$ egrep 'thp|compact' /proc/vmstat
compact_migrate_scanned 7153737
compact_free_scanned 994921216
compact_isolated 7446472
compact_stall 510
compact_fail 336
compact_success 174
compact_daemon_wake 508
compact_daemon_migrate_scanned 845040
compact_daemon_free_scanned 146659185
thp_fault_alloc 1260
thp_fault_fallback 313
thp_collapse_alloc 1118
thp_collapse_alloc_failed 1703
thp_file_alloc 0
thp_file_mapped 0
thp_split_page 152
thp_split_page_failed 0
thp_deferred_split_page 2102
thp_split_pmd 719
thp_split_pud 0
thp_zero_page_alloc 4
thp_zero_page_alloc_failed 0
thp_swpout 0
thp_swpout_fallback 0

鉴于上述设置，我很惊讶地看到 compact_stall 指标仍在增加。为什么我们会看到 compact_stalls 增加？我们应该担心吗，还是这只是延迟分配的副作用？thp_fault_fallback 正在增加，因此似乎正在发生一些延迟。

相关内容