内核如何在磁盘缓存和交换之间做出决定？

Question

释放内存物理页的整个任务的名称是回收，它涵盖了许多任务。回收主要由页面分配驱动，具有不同的紧急程度。在卸载的系统上，可以毫不费力地满足页面分配，并且不会触发任何回收。在中等负载的系统上，页面分配仍然可以立即得到满足，但它们也会导致kswapd被唤醒以执行后台回收。在无法立即满足页面分配的已加载系统上，回收是同步执行的。

可回收页面是存储可以在其他地方找到或可用的内容的页面。这就是典型的平衡行为发挥作用的地方：内容也在文件中的内存（或应该最终成为文件），v.内容不在文件中的内存（并且需要被换出）。前者存储在页面缓存中，后者则不存储，这就是为什么平衡解释通常谈论页面缓存与交换。

优先选择其中一个的决定是在内核中的一个位置确定的，get_scan_count，由设置控制struct scan_control。该函数的用途描述如下：

确定扫描匿名和文件 LRU 列表的积极程度。每组 LRU 列表的相对值是通过查看我们旋转回活动列表而不是逐出的扫描页面的比例来确定的。

也许令人惊讶的是，对于名为的函数get_...，它不使用返回值；相反，它填充指针指向的数组unsigned long *nr，其中四个条目对应于匿名非活动页面（未支持、最近未使用的页面）、匿名活动页面（未支持、最近使用的页面）、文件非活动页面（页面缓存中最近未使用的页面）和文件活动页面（页面缓存中最近使用的页面）。

get_scan_count首先检索适当的“交换”值，来自mem_cgroup_swappiness。如果当前内存 cgroup 是已启用的非 root v1 cgroup，则使用其交换设置；不然就是臭名昭著的/proc/sys/vm/swappiness。两种设置共享相同的目的;他们告诉内核

带回换出的匿名页面与重新加载文件系统页面的相对 IO 成本

但在实际使用该值之前，get_scan_count请确定应应用的总体策略：

如果没有交换或匿名页面无法收回在当前上下文中，它将仅跟踪文件支持的页面；
如果内存 cgroup 完全禁用交换，它将仅处理文件支持的页面；
如果swappiness没有被禁用（设置为0），并且系统内存即将耗尽，它将平等地处理所有页面；
如果系统几乎用完文件页面，它将仅处理匿名页面；
如果有足够的非活动页面缓存，它将仅查找文件支持的页面；
在所有其他情况下，它会根据相应的 I/O 成本调整给予各个 LRU 的“权重”。

一旦确定了策略，它就会迭代所有可逐出的 LRU（按顺序非活动匿名、活动匿名、非活动文件支持、活动文件支持）以确定应扫描每个 LRU 的页数；我将忽略 v1 cgroup：

如果策略是“平等地搜索所有页面”，则所有 LRU 中的所有页面都可能被扫描，最大大小由的scan_control移位priority因子确定；
如果策略是“仅跟踪文件支持的页面”或“仅跟踪匿名页面”，则相应 LRU 中的所有页面都是候选页面（再次按移动priority），其他 LRU 中没有页面；
否则，根据交换性调整值。

实际的页面扫描由shrink_lruvec，它使用上面确定的扫描长度，并重复缩小LRU 直到达到目标（以各种方式调整目标）。完成此操作后，活动/非活动 LRU 将重新平衡。

回到你的问题：

页缓存和内存映射文件受到同等对待；
页面回收并不纯粹基于上次访问（我没有解释如何使用 LRU，或者重新平衡如何工作；请阅读梅尔·戈尔曼 (Mel Gorman) 的相应章节了解 Linux 虚拟内存管理器了解详情）；
内核并没有平等地使用它们；它们根据情况有不同的优先级，并且可以配置通过许多控件（swappiness、cgroup、低水印阈值...）。

交换优先级仅决定页面在决定交换出后的去向。（顺便说一句，swappiness上面的文档和解释应该清楚地表明，I/O 成本没有足够的粒度来很好地处理混合 ZRAM/磁盘交换设置......）

还有很多需要解释，包括如何scan_control设置，但我怀疑这已经太长了！如果您想跟踪回收成本，您可以在任务延迟核算（也可以看看struct taskstats）。

Answer 1