30% 的 RAM 是“缓冲区”。它是什么？

Question 1

“缓冲区”和其他类型的缓存有什么区别？
为什么这种区别如此突出？为什么有些人在谈论缓存文件内容时会说“缓冲区缓存”？
有何Buffers用途？
为什么我们特别期望Buffers变大或变小？

1.“缓冲区”和其他类型的缓存有什么区别？

Buffers显示用于块设备的页面缓存量。 “块设备”是最常见的数据存储设备类型。

内核在报告时必须特意从页面缓存的其余部分中减去此数量Cached。看meminfo_proc_show():

cached = global_node_page_state(NR_FILE_PAGES) -
         total_swapcache_pages() - i.bufferram;
...

show_val_kb(m, "MemTotal:       ", i.totalram);
show_val_kb(m, "MemFree:        ", i.freeram);
show_val_kb(m, "MemAvailable:   ", available);
show_val_kb(m, "Buffers:        ", i.bufferram);
show_val_kb(m, "Cached:         ", cached);

2. 为什么这种区别如此突出？为什么有些人在谈论缓存文件内容时会说“缓冲区缓存”？

页缓存以 MMU 页大小为单位工作，通常最小为 4096 字节。这对于mmap()内存映射文件访问至关重要。[1][2]它旨在在单独的进程之间共享已加载程序/库代码的页面，并允许按需加载单个页面。（也可用于在其他内容需要空间且最近未使用过的情况下卸载页面）。

[1]内存映射 I/O- GNU C 库手册。
[2]mmap- 维基百科。

早期的 UNIX 有磁盘块的“缓冲区高速缓存”，并且没有 mmap()。显然，当第一次添加 mmap() 时，他们将页面缓存添加为顶部的新层。这听起来很混乱。最终，基于 UNIX 的操作系统摆脱了单独的缓冲区高速缓存。所以现在所有的文件缓存都是以页为单位的。页面是按（文件、偏移量）查找的，而不是按磁盘上的位置查找的。这被称为“统一缓冲区高速缓存”，也许是因为人们对“缓冲区高速缓存”更熟悉。 [3]

[3]UBC：适用于 NetBSD 的高效统一 I/O 和内存缓存子系统

（“Linux 添加的一个有趣的变化是，磁盘上存储页面的设备块编号以结构列表的形式与页面一起缓存buffer_head。当修改的页面要写回磁盘时，I/ O 请求可以立即发送到设备驱动程序，无需读取任何间接块来确定页面数据应写入的位置。”[3]）

在 Linux 2.2 中，有一个单独的“缓冲区高速缓存”用于写入，但不用于读取。 “页面缓存使用缓冲区缓存写回其数据，需要额外的数据副本，并且某些写入负载的内存要求加倍”。[4]我们不必太担心细节，但这段历史可能是 LinuxBuffers单独报告使用情况的原因之一。

[4]Linux 2.4内存管理中的页面替换，里克·范瑞尔。

相比之下，在 Linux 2.4 及更高版本中，不存在额外的副本。 “系统直接在页面缓存页面之间进行磁盘 IO。”[4] Linux 2.4 于 2001 年发布。

3.有什么`Buffers`用？

块设备被视为文件，因此具有页面缓存。这用于“文件系统元数据和原始块设备的缓存”。[4]但在当前版本的 Linux 中，文件系统不会通过它复制文件内容，因此不存在“双重缓存”。

我认为Buffers页面缓存的一部分是 Linux 缓冲区缓存。有些来源可能不同意这个术语。

文件系统使用多少缓冲区高速缓存（如果有）取决于文件系统的类型。问题中的系统使用ext4。 ext3/ext4 使用 Linux 缓冲区缓存来存储日志、目录内容和其他一些元数据。

某些文件系统（包括 ext3、ext4 和 ocfs2）使用 jbd 或 jbd2 层来处理其物理块日志记录，并且该层从根本上使用缓冲区高速缓存。

-- 通过电子邮件发送文章经过特德·曹, 2013

在 Linux 内核版本 2.4 之前，Linux 有单独的页面缓存和缓冲区缓存。从 2.4 开始，页面缓存和缓冲区缓存是统一的，并且Buffers是未在页面缓存中表示的原始磁盘块，即不是文件数据。

...

然而，缓冲区高速缓存仍然存在，因为内核仍然需要以块而不是页的形式执行块 I/O。由于大多数块代表文件数据，因此大部分缓冲区高速缓存由页高速缓存代表。但少量块数据没有文件支持（例如元数据和原始块 I/O），因此仅由缓冲区高速缓存表示。

--一对 Quora 答案经过罗伯特·洛夫，最后更新于 2013 年。

两位作者都是 Linux 开发人员，曾从事 Linux 内核内存管理工作。第一个来源更具体地介绍了技术细节。第二个来源是一个更笼统的总结，在某些细节上可能会矛盾和过时。

确实，文件系统可能会执行部分页面元数据写入，即使缓存是按页面索引的。即使用户进程在使用write()（与相对mmap()）时也可以执行部分页写入，至少可以直接写入块设备。这仅适用于写入，不适用于读取。当您读取页面缓存时，页面缓存总是读取整页。

莱纳斯喜欢咆哮执行块大小的写入不需要缓冲区高速缓存，并且即使将页高速缓存附加到自己的文件而不是块设备，文件系统也可以执行部分页元数据写入。我确信他说 ext2 可以做到这一点是正确的。 ext3/ext4 及其日志系统则不然。目前尚不清楚是什么问题导致了这种设计。他咆哮的那些人已经厌倦了解释。

ext4_readdir() 没有被改变来满足 Linus 的咆哮。我也没有看到他想要的方法在其他文件系统的 readdir() 中使用。我认为 XFS 也对目录使用缓冲区高速缓存。 bcachefs 根本不使用 readdir() 的页面缓存；它使用自己的 btree 缓存。我不确定 btrfs。

4. 为什么我们特别期望`Buffers`变大或变小？

在这种情况下，事实证明ext4 日志大小我的文件系统是128M。所以这解释了为什么1）我的buffer cache可以稳定在略高于128M； 2) 缓冲区高速缓存不与我的笔记本电脑上较大的 RAM 成比例地扩展。

对于其他一些可能的原因，请参阅free 输出中的 buffers 列是什么？请注意，报告的“缓冲区”实际上是可回收内核平板内存free的组合。Buffers

为了验证日志写入是否使用缓冲区高速缓存，我在快速 RAM (tmpfs) 中模拟了一个文件系统，并比较了不同日志大小的最大缓冲区使用情况。

# dd if=/dev/zero of=/tmp/t bs=1M count=1000
...
# mkfs.ext4 /tmp/t -J size=256
...
# LANG=C dumpe2fs /tmp/t | grep '^Journal size'
dumpe2fs 1.43.5 (04-Aug-2017)
Journal size:             256M
# mount /tmp/t /mnt
# cd /mnt
# free -w -m
              total        used        free      shared     buffers       cache   available
Mem:           7855        2521        4321         285          66         947        5105
Swap:          7995           0        7995

# for i in $(seq 40000); do dd if=/dev/zero of=t bs=1k count=1 conv=sync status=none; sync t; sync -f t; done
# free -w -m
              total        used        free      shared     buffers       cache   available
Mem:           7855        2523        3872         551         237        1223        4835
Swap:          7995           0        7995

# dd if=/dev/zero of=/tmp/t bs=1M count=1000
...
# mkfs.ext4 /tmp/t -J size=16
...
# LANG=C dumpe2fs /tmp/t | grep '^Journal size'
dumpe2fs 1.43.5 (04-Aug-2017)
Journal size:             16M
# mount /tmp/t /mnt
# cd /mnt
# free -w -m
              total        used        free      shared     buffers       cache   available
Mem:           7855        2507        4337         285          66         943        5118
Swap:          7995           0        7995

# for i in $(seq 40000); do dd if=/dev/zero of=t bs=1k count=1 conv=sync status=none; sync t; sync -f t; done
# free -w -m
              total        used        free      shared     buffers       cache   available
Mem:           7855        2509        4290         315          77         977        5086
Swap:          7995           0        7995

这个答案的历史：我是如何看待这本杂志的

我首先找到了 Ted Tso 的电子邮件，并对它强调的内容感到好奇写缓存。如果“肮脏”，我会感到惊讶，不成文数据能够达到我系统上 RAM 的 30%。 sudo atop显示在 10 秒的时间间隔内，相关系统始终只写入 1MB。相关文件系统将能够跟上这个速率 100 倍以上。（它位于 USB2 硬盘驱动器上，最大吞吐量约为 20MB/s）。

使用 blktrace ( btrace -w 10 /dev/sda) 确认正在缓存的 IO 一定是写入，因为几乎没有数据被读取。这也是mysqld唯一用户空间进程进行IO。

我停止了负责写入的服务（icinga2写入mysql）并重新检查。我看到“缓冲区”下降到 20M 以下 - 我对此没有任何解释 - 并保持在那里。再次重新启动写入器会显示“缓冲区”每 10 秒间隔增加约 0.1M。我观察到它始终保持这个速度，回升至 70M 及以上。

运行echo 3 | sudo tee /proc/sys/vm/drop_caches足以再次降低“缓冲区”至 4.5M。这证明我积累的缓冲区是一个“干净”的缓存，Linux可以在需要时立即删除它。本系统不累积不成文数据。（drop_caches不执行任何写回，因此不能删除脏页。如果您想运行首先清理缓存的测试，您可以使用该sync命令）。

整个mysql目录只有150M。累积缓冲区必须代表 mysql 写入的元数据块，但令我惊讶的是，该数据会有如此多的元数据块。

Answer

“缓冲区”和其他类型的缓存有什么区别？
为什么这种区别如此突出？为什么有些人在谈论缓存文件内容时会说“缓冲区缓存”？
有何Buffers用途？
为什么我们特别期望Buffers变大或变小？

1.“缓冲区”和其他类型的缓存有什么区别？

Buffers显示用于块设备的页面缓存量。 “块设备”是最常见的数据存储设备类型。

内核在报告时必须特意从页面缓存的其余部分中减去此数量Cached。看meminfo_proc_show():

cached = global_node_page_state(NR_FILE_PAGES) -
         total_swapcache_pages() - i.bufferram;
...

show_val_kb(m, "MemTotal:       ", i.totalram);
show_val_kb(m, "MemFree:        ", i.freeram);
show_val_kb(m, "MemAvailable:   ", available);
show_val_kb(m, "Buffers:        ", i.bufferram);
show_val_kb(m, "Cached:         ", cached);

2. 为什么这种区别如此突出？为什么有些人在谈论缓存文件内容时会说“缓冲区缓存”？

页缓存以 MMU 页大小为单位工作，通常最小为 4096 字节。这对于mmap()内存映射文件访问至关重要。[1][2]它旨在在单独的进程之间共享已加载程序/库代码的页面，并允许按需加载单个页面。（也可用于在其他内容需要空间且最近未使用过的情况下卸载页面）。

[1]内存映射 I/O- GNU C 库手册。
[2]mmap- 维基百科。

早期的 UNIX 有磁盘块的“缓冲区高速缓存”，并且没有 mmap()。显然，当第一次添加 mmap() 时，他们将页面缓存添加为顶部的新层。这听起来很混乱。最终，基于 UNIX 的操作系统摆脱了单独的缓冲区高速缓存。所以现在所有的文件缓存都是以页为单位的。页面是按（文件、偏移量）查找的，而不是按磁盘上的位置查找的。这被称为“统一缓冲区高速缓存”，也许是因为人们对“缓冲区高速缓存”更熟悉。 [3]

[3]UBC：适用于 NetBSD 的高效统一 I/O 和内存缓存子系统

（“Linux 添加的一个有趣的变化是，磁盘上存储页面的设备块编号以结构列表的形式与页面一起缓存buffer_head。当修改的页面要写回磁盘时，I/ O 请求可以立即发送到设备驱动程序，无需读取任何间接块来确定页面数据应写入的位置。”[3]）

在 Linux 2.2 中，有一个单独的“缓冲区高速缓存”用于写入，但不用于读取。 “页面缓存使用缓冲区缓存写回其数据，需要额外的数据副本，并且某些写入负载的内存要求加倍”。[4]我们不必太担心细节，但这段历史可能是 LinuxBuffers单独报告使用情况的原因之一。

[4]Linux 2.4内存管理中的页面替换，里克·范瑞尔。

相比之下，在 Linux 2.4 及更高版本中，不存在额外的副本。 “系统直接在页面缓存页面之间进行磁盘 IO。”[4] Linux 2.4 于 2001 年发布。

3.有什么`Buffers`用？

块设备被视为文件，因此具有页面缓存。这用于“文件系统元数据和原始块设备的缓存”。[4]但在当前版本的 Linux 中，文件系统不会通过它复制文件内容，因此不存在“双重缓存”。

我认为Buffers页面缓存的一部分是 Linux 缓冲区缓存。有些来源可能不同意这个术语。

文件系统使用多少缓冲区高速缓存（如果有）取决于文件系统的类型。问题中的系统使用ext4。 ext3/ext4 使用 Linux 缓冲区缓存来存储日志、目录内容和其他一些元数据。

某些文件系统（包括 ext3、ext4 和 ocfs2）使用 jbd 或 jbd2 层来处理其物理块日志记录，并且该层从根本上使用缓冲区高速缓存。

-- 通过电子邮件发送文章经过特德·曹, 2013

在 Linux 内核版本 2.4 之前，Linux 有单独的页面缓存和缓冲区缓存。从 2.4 开始，页面缓存和缓冲区缓存是统一的，并且Buffers是未在页面缓存中表示的原始磁盘块，即不是文件数据。

...

然而，缓冲区高速缓存仍然存在，因为内核仍然需要以块而不是页的形式执行块 I/O。由于大多数块代表文件数据，因此大部分缓冲区高速缓存由页高速缓存代表。但少量块数据没有文件支持（例如元数据和原始块 I/O），因此仅由缓冲区高速缓存表示。

--一对 Quora 答案经过罗伯特·洛夫，最后更新于 2013 年。

两位作者都是 Linux 开发人员，曾从事 Linux 内核内存管理工作。第一个来源更具体地介绍了技术细节。第二个来源是一个更笼统的总结，在某些细节上可能会矛盾和过时。

确实，文件系统可能会执行部分页面元数据写入，即使缓存是按页面索引的。即使用户进程在使用write()（与相对mmap()）时也可以执行部分页写入，至少可以直接写入块设备。这仅适用于写入，不适用于读取。当您读取页面缓存时，页面缓存总是读取整页。

莱纳斯喜欢咆哮执行块大小的写入不需要缓冲区高速缓存，并且即使将页高速缓存附加到自己的文件而不是块设备，文件系统也可以执行部分页元数据写入。我确信他说 ext2 可以做到这一点是正确的。 ext3/ext4 及其日志系统则不然。目前尚不清楚是什么问题导致了这种设计。他咆哮的那些人已经厌倦了解释。

ext4_readdir() 没有被改变来满足 Linus 的咆哮。我也没有看到他想要的方法在其他文件系统的 readdir() 中使用。我认为 XFS 也对目录使用缓冲区高速缓存。 bcachefs 根本不使用 readdir() 的页面缓存；它使用自己的 btree 缓存。我不确定 btrfs。

4. 为什么我们特别期望`Buffers`变大或变小？

在这种情况下，事实证明ext4 日志大小我的文件系统是128M。所以这解释了为什么1）我的buffer cache可以稳定在略高于128M； 2) 缓冲区高速缓存不与我的笔记本电脑上较大的 RAM 成比例地扩展。

对于其他一些可能的原因，请参阅free 输出中的 buffers 列是什么？请注意，报告的“缓冲区”实际上是可回收内核平板内存free的组合。Buffers

为了验证日志写入是否使用缓冲区高速缓存，我在快速 RAM (tmpfs) 中模拟了一个文件系统，并比较了不同日志大小的最大缓冲区使用情况。

# dd if=/dev/zero of=/tmp/t bs=1M count=1000
...
# mkfs.ext4 /tmp/t -J size=256
...
# LANG=C dumpe2fs /tmp/t | grep '^Journal size'
dumpe2fs 1.43.5 (04-Aug-2017)
Journal size:             256M
# mount /tmp/t /mnt
# cd /mnt
# free -w -m
              total        used        free      shared     buffers       cache   available
Mem:           7855        2521        4321         285          66         947        5105
Swap:          7995           0        7995

# for i in $(seq 40000); do dd if=/dev/zero of=t bs=1k count=1 conv=sync status=none; sync t; sync -f t; done
# free -w -m
              total        used        free      shared     buffers       cache   available
Mem:           7855        2523        3872         551         237        1223        4835
Swap:          7995           0        7995

# dd if=/dev/zero of=/tmp/t bs=1M count=1000
...
# mkfs.ext4 /tmp/t -J size=16
...
# LANG=C dumpe2fs /tmp/t | grep '^Journal size'
dumpe2fs 1.43.5 (04-Aug-2017)
Journal size:             16M
# mount /tmp/t /mnt
# cd /mnt
# free -w -m
              total        used        free      shared     buffers       cache   available
Mem:           7855        2507        4337         285          66         943        5118
Swap:          7995           0        7995

# for i in $(seq 40000); do dd if=/dev/zero of=t bs=1k count=1 conv=sync status=none; sync t; sync -f t; done
# free -w -m
              total        used        free      shared     buffers       cache   available
Mem:           7855        2509        4290         315          77         977        5086
Swap:          7995           0        7995

这个答案的历史：我是如何看待这本杂志的

我首先找到了 Ted Tso 的电子邮件，并对它强调的内容感到好奇写缓存。如果“肮脏”，我会感到惊讶，不成文数据能够达到我系统上 RAM 的 30%。 sudo atop显示在 10 秒的时间间隔内，相关系统始终只写入 1MB。相关文件系统将能够跟上这个速率 100 倍以上。（它位于 USB2 硬盘驱动器上，最大吞吐量约为 20MB/s）。

使用 blktrace ( btrace -w 10 /dev/sda) 确认正在缓存的 IO 一定是写入，因为几乎没有数据被读取。这也是mysqld唯一用户空间进程进行IO。

我停止了负责写入的服务（icinga2写入mysql）并重新检查。我看到“缓冲区”下降到 20M 以下 - 我对此没有任何解释 - 并保持在那里。再次重新启动写入器会显示“缓冲区”每 10 秒间隔增加约 0.1M。我观察到它始终保持这个速度，回升至 70M 及以上。

运行echo 3 | sudo tee /proc/sys/vm/drop_caches足以再次降低“缓冲区”至 4.5M。这证明我积累的缓冲区是一个“干净”的缓存，Linux可以在需要时立即删除它。本系统不累积不成文数据。（drop_caches不执行任何写回，因此不能删除脏页。如果您想运行首先清理缓存的测试，您可以使用该sync命令）。

整个mysql目录只有150M。累积缓冲区必须代表 mysql 写入的元数据块，但令我惊讶的是，该数据会有如此多的元数据块。

Question 2

您的版本free有正确的想法。默认情况下，它在报告中结合了缓冲区和缓存。这是因为它们基本上是同一件事。它们都是计算机在 RAM 中记住的内容（比辅助存储更快：磁盘和 SSD），即读取磁盘和 SSD 时已经看到的内容。

如果操作系统认为内存被其他东西更好地使用，那么它可以释放它。因此不用担心缓冲区和缓存。

然而，观看 DVD 可能会导致缓冲区上升，并逐出其他缓冲区/缓存内容。因此您可以使用 nocache 来运行 DVD 播放器（如果它造成问题）。

Answer

您的版本free有正确的想法。默认情况下，它在报告中结合了缓冲区和缓存。这是因为它们基本上是同一件事。它们都是计算机在 RAM 中记住的内容（比辅助存储更快：磁盘和 SSD），即读取磁盘和 SSD 时已经看到的内容。

如果操作系统认为内存被其他东西更好地使用，那么它可以释放它。因此不用担心缓冲区和缓存。

然而，观看 DVD 可能会导致缓冲区上升，并逐出其他缓冲区/缓存内容。因此您可以使用 nocache 来运行 DVD 播放器（如果它造成问题）。

30% 的 RAM 是“缓冲区”。它是什么？

答案1

1.“缓冲区”和其他类型的缓存有什么区别？

2. 为什么这种区别如此突出？为什么有些人在谈论缓存文件内容时会说“缓冲区缓存”？

3.有什么`Buffers`用？

4. 为什么我们特别期望`Buffers`变大或变小？

这个答案的历史：我是如何看待这本杂志的

答案2

相关内容

答案1

1.“缓冲区”和其他类型的缓存有什么区别？

2. 为什么这种区别如此突出？为什么有些人在谈论缓存文件内容时会说“缓冲区缓存”？

3.有什么Buffers用？

4. 为什么我们特别期望Buffers变大或变小？

这个答案的历史：我是如何看待这本杂志的

答案2

相关内容

3.有什么`Buffers`用？

4. 为什么我们特别期望`Buffers`变大或变小？