OOM 杀手无法正常工作，导致操作系统冻结

Question 1

我找到了两个解释（同一件事）来解释为什么~~kswapd0 会~~持续读取磁盘发生在 OOM-killer 杀死有问题的进程之前：

查看答案和评论这个askubuntu SE答案
请参阅答案和大卫施瓦茨的评论这个答案在unix SE上

我将在这里引用 1. 的评论，这确实让我大开眼界，为什么我在一切都正常的情况下却不断地读取磁盘冷冻的：

例如，考虑一下交换空间为零且系统几乎耗尽 RAM 的情况。内核将从例如 Firefox 获取内存（它可以这样做，因为 Firefox 正在运行已从磁盘加载的可执行代码 - 如果需要，可以再次从磁盘加载代码）。如果 Firefox 在 N 秒后需要再次访问该 RAM，CPU 会生成“硬故障”，迫使 Linux 释放一些 RAM（例如，从另一个进程中获取一些 RAM），从磁盘加载丢失的数据，然后允许 Firefox 继续运行通常。这与普通交换非常相似，kswapd0 就是这样做的。 – Mikko Rantalainen 2 月 15 日 13:08

如果有人有办法如何禁用此行为（也许使用什么选项重新编译内核？），请尽快告知我！非常感谢，谢谢！

更新：到目前为止，我发现的唯一方法是通过修补内核，它对我来说在禁用交换的情况下有效（即。CONFIG_SWAP is not set），但对其他启用交换的人不起作用似乎;看里面的补丁这问题。

Answer

我找到了两个解释（同一件事）来解释为什么~~kswapd0 会~~持续读取磁盘发生在 OOM-killer 杀死有问题的进程之前：

查看答案和评论这个askubuntu SE答案
请参阅答案和大卫施瓦茨的评论这个答案在unix SE上

我将在这里引用 1. 的评论，这确实让我大开眼界，为什么我在一切都正常的情况下却不断地读取磁盘冷冻的：

例如，考虑一下交换空间为零且系统几乎耗尽 RAM 的情况。内核将从例如 Firefox 获取内存（它可以这样做，因为 Firefox 正在运行已从磁盘加载的可执行代码 - 如果需要，可以再次从磁盘加载代码）。如果 Firefox 在 N 秒后需要再次访问该 RAM，CPU 会生成“硬故障”，迫使 Linux 释放一些 RAM（例如，从另一个进程中获取一些 RAM），从磁盘加载丢失的数据，然后允许 Firefox 继续运行通常。这与普通交换非常相似，kswapd0 就是这样做的。 – Mikko Rantalainen 2 月 15 日 13:08

如果有人有办法如何禁用此行为（也许使用什么选项重新编译内核？），请尽快告知我！非常感谢，谢谢！

更新：到目前为止，我发现的唯一方法是通过修补内核，它对我来说在禁用交换的情况下有效（即。CONFIG_SWAP is not set），但对其他启用交换的人不起作用似乎;看里面的补丁这问题。

Question 2

EarlyOOM 实用程序是此问题的实用解决方案。 https://fedoraproject.org/wiki/Changes/EnableEarlyoom

该实用程序将监视内存使用情况，并在总内存使用量超过可配置阈值（例如 95%）之前终止大量消耗者。

它是为 Arch Linux 打包的earlyoom，它附带了一个 systemd 服务，所以你可以快速安装它：

pacman -S earlyoom
systemctl enable earlyoom
systemctl start earlyoom

我已经使用它几个星期了，这是一个日夜的区别：尽管使用一些消耗内存的应用程序（Java、Electron 和浏览器）将系统推向了极限，但系统不再冻结。我还没有亲眼目睹它杀死了错误的进程，我认为这在理论上可能会发生。也许这在理论上是一个无法解决的问题，因为网上已经写了很多关于它的解释，但在实践中，简单的启发式方法非常有效。

Answer

EarlyOOM 实用程序是此问题的实用解决方案。 https://fedoraproject.org/wiki/Changes/EnableEarlyoom

该实用程序将监视内存使用情况，并在总内存使用量超过可配置阈值（例如 95%）之前终止大量消耗者。

它是为 Arch Linux 打包的earlyoom，它附带了一个 systemd 服务，所以你可以快速安装它：

pacman -S earlyoom
systemctl enable earlyoom
systemctl start earlyoom

我已经使用它几个星期了，这是一个日夜的区别：尽管使用一些消耗内存的应用程序（Java、Electron 和浏览器）将系统推向了极限，但系统不再冻结。我还没有亲眼目睹它杀死了错误的进程，我认为这在理论上可能会发生。也许这在理论上是一个无法解决的问题，因为网上已经写了很多关于它的解释，但在实践中，简单的启发式方法非常有效。

Question 3

memory.min内存控制器中的参数应该cgroups-v2有所帮助。

也就是说，让我引用：

硬内存保护。如果 cgroup 的内存使用量在其有效最小边界内，则该 cgroup 的内存在任何情况下都不会被回收。如果没有可用的未受保护的可回收内存，则会调用 OOM 杀手。

来源：https://www.kernel.org/doc/html/latest/admin-guide/cgroup-v2.html

Answer

memory.min内存控制器中的参数应该cgroups-v2有所帮助。

也就是说，让我引用：

硬内存保护。如果 cgroup 的内存使用量在其有效最小边界内，则该 cgroup 的内存在任何情况下都不会被回收。如果没有可用的未受保护的可回收内存，则会调用 OOM 杀手。

来源：https://www.kernel.org/doc/html/latest/admin-guide/cgroup-v2.html

OOM 杀手无法正常工作，导致操作系统冻结

答案1

答案2

答案3

相关内容