为什么内存受限的 LXC 容器中的应用程序将大文件写入磁盘会被 OOM 杀死？

Question 1

编辑：我会保留我原来的答案，但我会尝试解释这里发生的事情并为您提供一个通用的解决方案。

编辑 2：提供了另一种选择。

您在这里遇到的问题与内核如何管理 I/O 有关。当您对文件系统进行写入时，该写入不会立即提交到磁盘；这将是非常低效的。相反，写入缓存在称为页面缓存的内存区域中，并定期以块的形式写入磁盘。日志的“脏”部分描述了尚未写入磁盘的此页面缓存的大小：

dirty:123816kB

那么什么会清空这个脏缓存呢？为什么它没有完成它的工作？

Linux 上的“Flush”负责将脏页写入磁盘。它是一个守护进程，会定期唤醒以确定是否需要写入磁盘，如果需要，则执行写入。如果您是 C 语言爱好者，请开始这里。Flush 非常高效；在需要时，它可以很好地将内容刷新到磁盘。而且它的工作方式与预期完全一致。

冲洗运行外部您的 LXC 容器，因为您的 LXC 容器没有自己的内核。LXC 容器作为围绕以下结构而存在：cgroups，这是 Linux 内核的一个特性，可以更好地限制和隔离进程组，但不能限制和隔离其自身的内核或刷新守护进程。

由于 LXC 的内存限制低于内核可用的内存，因此会发生奇怪的事情。Flush 假设它拥有主机的全部内存来缓存写入。LXC 中的程序开始写入一个大文件，它会缓冲...缓冲...最终达到其硬限制，并开始调用 OOM 管理器。这不是任何特定组件的故障；这是预期的行为。有点。 这种事情应该由 cgroups 来处理，但是看起来似乎并非如此。

这完全解释了您在实例大小之间看到的行为。与大型实例相比，您在微型实例（具有 512MB RAM）上开始刷新到磁盘的速度要快得多

好吧，这很有道理。但这没用。我还需要写一个大文件。

好吧，flush 不知道你的 LXC 限制。因此，除了修补内核之外，你还可以尝试以下几个选项来调整：

/proc/sys/vm/dirty_expire_centiseconds

这控制页面在脏缓存中保留并写入磁盘的时间。默认情况下为 30 秒；尝试将其设置得更低以开始更快地将其推出。

/proc/sys/vm/dirty_background_ratio

这控制在开始强制写入之前允许填充多少百分比的活动内存刷新。在整理准确总数这里，但最简单的解释是只看你的总内存。默认情况下是 10%（在某些发行版中是 5%）。将其设置得较低；它将强制更快地写入磁盘，并可能防止你的 LXC 超出其限制。

我不能稍微改动一下文件系统吗？

嗯，是的。但一定要测试一下……这可能会影响性能。在您要写入此内容的 /etc/fstab 中的挂载上，添加“同步' 安装选项。

原始答案：

尝试减少 DD 使用的块大小：
dd if=/dev/zero of=test2 bs=512 count=1024000
您一次只能写入一个扇区（旧硬盘上为 512 字节，新硬盘上为 4096 字节）。如果 DD 将写入推送到磁盘的速度快于磁盘接受的速度，它将开始将写入缓存在内存中。这就是文件缓存不断增长的原因。

Answer