当设备有足够空间时，如何修复 mv 期间间歇性的“设备上没有剩余空间”错误？

Question 1

dir_index您在目标文件系统上使用的ext4 功能的实现中存在错误。

解决方案：重新创建不带 dir_index 的文件系统。或使用tune2fs禁用功能（需要注意一些，请参阅相关链接Novell SuSE 10/11：在 ext3 文件系统上禁用 H 树索引这虽然涉及到外部3可能需要类似的谨慎。

(get a really good backup made of the filesystem)
(unmount the filesystem)
tune2fs -O ^dir_index /dev/foo
e2fsck -fDvy /dev/foo
(mount the filesystem)

ext4：神秘的“设备上没有剩余空间”错误

ext4 有一个默认启用的名为 dir_index 的功能，该功能很容易受到哈希冲突的影响。

......

ext4 可以对其内容的文件名进行哈希处理。这提高了性能，但有一个“小”问题：当 ext4 开始填满时，它的哈希表不会增长。相反，它返回 -ENOSPC 或“设备上没有剩余空间”。

Answer

dir_index您在目标文件系统上使用的ext4 功能的实现中存在错误。

解决方案：重新创建不带 dir_index 的文件系统。或使用tune2fs禁用功能（需要注意一些，请参阅相关链接Novell SuSE 10/11：在 ext3 文件系统上禁用 H 树索引这虽然涉及到外部3可能需要类似的谨慎。

(get a really good backup made of the filesystem)
(unmount the filesystem)
tune2fs -O ^dir_index /dev/foo
e2fsck -fDvy /dev/foo
(mount the filesystem)

ext4：神秘的“设备上没有剩余空间”错误

ext4 有一个默认启用的名为 dir_index 的功能，该功能很容易受到哈希冲突的影响。

......

ext4 可以对其内容的文件名进行哈希处理。这提高了性能，但有一个“小”问题：当 ext4 开始填满时，它的哈希表不会增长。相反，它返回 -ENOSPC 或“设备上没有剩余空间”。

Question 2

关于存储大量小文件的比 ext4 更好的选择的建议：

如果您使用文件系统作为对象存储，您可能需要考虑使用专门于此的文件系统，这可能会损害其他特性。快速谷歌搜索发现头孢，它似乎是开源的，可以作为 POSIX 文件系统安装，也可以通过其他 API 访问。我不知道在不利用复制的情况下是否值得在单个主机上使用。

另一个对象存储系统是OpenStack 的 Swift。它的设计文档这么说将每个对象存储为单独的文件，元数据位于 xattrs 中。这是一篇关于它的文章。他们的部署指南表示他们发现 XFS 为对象存储提供了最佳性能。因此，尽管工作负载不是 XFS 最擅长的，但在 RackSpace 测试时，它显然比竞争对手更好。 Swift 可能更青睐 XFS，因为 XFS 对扩展属性有良好/快速的支持。如果不需要额外的元数据（或者如果它保存在二进制文件中），那么 ext3/ext4 可能在单个磁盘上作为对象存储后端运行良好。

Swift 为您进行复制/负载平衡，并建议您为其提供在原始磁盘上创建的文件系统，不是RAID。它指出它的工作负载本质上是 RAID5 的最坏情况（如果我们谈论的是小文件写入的工作负载，这是有道理的。XFS 通常不会完全将它们从头到尾打包，因此您不必获得全条带写入，并且 RAID5 必须执行一些读取来更新奇偶校验条带。 Swift 文档还讨论了每个驱动器使用 100 个分区，我认为这是一个 Swift 术语，而不是讨论在每个驱动器上创建 100 个不同的 XFS 文件系统。 SATA 磁盘。

为每个磁盘运行单独的 XFS 实际上是一个巨大的差异. 而不是一个巨大空闲 inode 映射，每个磁盘将有一个单独的 XFS 和单独的空闲列表。此外，它还避免了小写入的 RAID5 损失。

如果您已经构建了直接使用文件系统作为对象存储的软件，而不是通过像 Swift 这样的东西来处理复制/负载平衡，那么您至少可以避免将所有文件放在一个目录中。（我没有看到 Swift 文档说明他们如何将文件布局到多个目录中，但我确信他们会这样做。）

对于几乎所有普通的文件系统，使用类似的结构都会有所帮助

1234/5678   # nested medium-size directories instead of
./12345678   # one giant directory

大约 10k 条目可能是合理的，因此采用均匀分布的 4 个字符的对象名称并将它们用作目录是一个简单的解决方案。它不必非常平衡。奇怪的 100k 目录可能不会是一个明显的问题，一些空目录也不会是一个明显的问题。

XFS对于大量小文件来说并不理想。它做了它能做的事情，但它针对较大文件的流式写入进行了更优化。不过，总体而言，对于一般用途来说，它非常好。ENOSPC它的目录索引（据我所知）没有冲突，并且可以处理一个包含数百万个条目的目录。（但最好至少使用一层树。）

戴夫·钦纳对分配大量 inode 时的 XFS 性能有一些评论，导致性能缓慢touch。查找要分配的空闲 inode 开始花费更多的 CPU 时间，因为空闲 inode 位图变得碎片化。请注意，这不是一个大目录与多个目录的问题，而是整个文件系统上许多使用的 inode 的问题。将文件拆分到多个目录有助于解决一些问题，例如 OP 中 ext4 阻塞的问题，但不能解决跟踪可用空间的整个磁盘问题。与 RAID5 上的巨型 XFS 相比，Swift 的每个磁盘单独的文件系统有助于解决此问题。

我不知道是否BTFS很擅长这个，但我认为可能是。我认为 Facebook 聘用其首席开发人员是有原因的。 :P 我见过的一些基准测试，例如解压 Linux 内核源代码，显示 btrfs 表现良好。

我知道赖塞尔夫斯针对这种情况进行了优化，但它几乎不再被维护（如果有的话）。我真的不建议使用 reiser4。不过，尝试一下可能会很有趣。但这是迄今为止最不适合未来的选择。我还看到过有关老化的 reiserFS 性能下降的报告，并且没有好的碎片整理工具。（谷歌filesystem millions of small files，并查看一些现有的 stackexchange 答案。）

我可能错过了一些东西，所以最后建议：在 serverfault 上询问这个问题！ 如果我现在必须选择一些东西，我会说尝试一下 BTRFS，但要确保你有备份。（特别是，如果您使用 BTRFS 的内置多磁盘冗余，而不是在 RAID 之上运行它。性能优势可能会很大，因为小文件对于 RAID5 来说是个坏消息，除非它是一个以读取为主的工作负载。）

Answer