如何找出导致我的机器冻结的原因？

Question 1

具有大量随机写入的文件可能会变得严重碎片化（超过 10000 个范围），导致 HDD 损坏，并在具有 SSD 或大量 RAM 的系统上导致 CPU 负载出现过多的多秒峰值。

在服务器和工作站上，这会影响数据库和虚拟机映像。

nodatacow 安装选项可能在这里有用，并有相关的陷阱。

...

症状包括 btrfs-transacti 和 btrfs-endio-wri 占用大量 CPU 时间（出现峰值，可能由同步触发）。您可以使用 filefrag 来定位碎片较多的文件（压缩时可能无法正常工作）。

我在 Virtualbox 中遇到了与您描述的类似的问题。 btrfs选项nodatacow对我的系统没有明显帮助。我也尝试了自动碎片整理选项（作为桌面环境中应用程序数据库的可能解决方案提到），也没有得到使该行为可接受的结果。

最后，我缩小了 btrfs 分区及其所在的逻辑卷，创建了一个新的 LV 并将其格式化为 ext4，然后将我拥有的 VM 磁盘映像 (VirtualBox) 放在该“分区”上。

Answer

来自 btrfs陷阱页面:

具有大量随机写入的文件可能会变得严重碎片化（超过 10000 个范围），导致 HDD 损坏，并在具有 SSD 或大量 RAM 的系统上导致 CPU 负载出现过多的多秒峰值。

在服务器和工作站上，这会影响数据库和虚拟机映像。

nodatacow 安装选项可能在这里有用，并有相关的陷阱。

...

症状包括 btrfs-transacti 和 btrfs-endio-wri 占用大量 CPU 时间（出现峰值，可能由同步触发）。您可以使用 filefrag 来定位碎片较多的文件（压缩时可能无法正常工作）。

我在 Virtualbox 中遇到了与您描述的类似的问题。 btrfs选项nodatacow对我的系统没有明显帮助。我也尝试了自动碎片整理选项（作为桌面环境中应用程序数据库的可能解决方案提到），也没有得到使该行为可接受的结果。

最后，我缩小了 btrfs 分区及其所在的逻辑卷，创建了一个新的 LV 并将其格式化为 ext4，然后将我拥有的 VM 磁盘映像 (VirtualBox) 放在该“分区”上。

Question 2

通过不在分区上使用 LUKS，问题得到了彻底解决。所以我直接使用 BTRFS 格式化分区，而不是先使用 LUKS。

还安装了以下参数：

/dev/sda2 /           btrfs       rw,noatime,space_cache,compress=lzo,ssd,discard,autodefrag,commit=0,thread_pool=8 0 0

相关糟糕的通用 dm-crypt (LUKS) 写入性能

Answer

通过不在分区上使用 LUKS，问题得到了彻底解决。所以我直接使用 BTRFS 格式化分区，而不是先使用 LUKS。

还安装了以下参数：

/dev/sda2 /           btrfs       rw,noatime,space_cache,compress=lzo,ssd,discard,autodefrag,commit=0,thread_pool=8 0 0

相关糟糕的通用 dm-crypt (LUKS) 写入性能

Question 3

这可能是一个透明的大页问题，其中内核线程胡格佩吉德，实际上是挖掘 RAM 以对其进行碎片整理或从 4k 个页面中创建大页面。

鉴于您的系统 RAM 量相当大，内核可能决定启用大页面。

检查这两个内核可调参数的内容：

/sys/kernel/mm/transparent_hugepage/enabled
/sys/kernel/mm/transparent_hugepage/defrag

如果它们的内容是always，您可以更改never，并查看 cpu 峰值/冻结是否消失。

Answer

这可能是一个透明的大页问题，其中内核线程胡格佩吉德，实际上是挖掘 RAM 以对其进行碎片整理或从 4k 个页面中创建大页面。

鉴于您的系统 RAM 量相当大，内核可能决定启用大页面。

检查这两个内核可调参数的内容：

/sys/kernel/mm/transparent_hugepage/enabled
/sys/kernel/mm/transparent_hugepage/defrag

如果它们的内容是always，您可以更改never，并查看 cpu 峰值/冻结是否消失。

如何找出导致我的机器冻结的原因？

答案1

答案2

答案3

相关内容