超慢的 Ext4 目录遍历

Question 1

请参阅我发布的答案这里。正如我在那里写的，问题在于 readdir() 和 stat() 的组合，因为在硬盘上，不在 inode 缓存中的文件的每个 stat(2)（在最坏的情况下）都会导致随机 4k 读取。在硬盘上，如果您有数千或数百万个文件，这些随机读取就会累积起来。对于大多数文件系统来说，情况都是如此。

按 inode 编号顺序对文件进行排序可能会有所帮助，但最终，优化此类工作负载的最佳方法是尽可能避免 stat(2) 系统调用。如果您尝试存储大量小块，那么具有适当索引的数据库可能是您的应用程序的更好选择。

Answer

请参阅我发布的答案这里。正如我在那里写的，问题在于 readdir() 和 stat() 的组合，因为在硬盘上，不在 inode 缓存中的文件的每个 stat(2)（在最坏的情况下）都会导致随机 4k 读取。在硬盘上，如果您有数千或数百万个文件，这些随机读取就会累积起来。对于大多数文件系统来说，情况都是如此。

按 inode 编号顺序对文件进行排序可能会有所帮助，但最终，优化此类工作负载的最佳方法是尽可能避免 stat(2) 系统调用。如果您尝试存储大量小块，那么具有适当索引的数据库可能是您的应用程序的更好选择。

Question 2

看起来问题的根源是文件夹的数量和文件碎片。

e2fsck返回files non-contiguous上面显示的磁盘上碎片的~0.1％（），但这是总可用inode的百分比。

如果我查看文件碎片的百分比，它会返回 3.09%，其中 42.11% 的文件夹碎片。

在最糟糕的情况下，13.25％的文件碎片化，35.71％的文件夹碎片化。

我不确定目录碎片的根本原因以及如何避免它，但我将针对此提出一个单独的问题。

Answer