Linux 文件系统的 inode 在磁盘上关闭

Question 1

我将用我对你的问题的回答来交换你对我问题的回答：要在 /proc 或 /sys 中调整哪些旋钮才能将所有的 inode 保存在内存中？

现在我来回答你的问题：

我正在努力解决类似的问题，当服务器负载很重时，我试图让 ls -l 通过 NFS 快速处理包含几千个文件的目录。

NetApp 出色地完成了这项任务；到目前为止，我尝试过的所有其他产品都做不到。

研究这个问题时，我发现了一些将元数据与数据分离的文件系统，但它们都有一些缺点：

dualfs：有一些针对 2.4.19 的补丁，但没有太多其他补丁。
lustre：ls -l 是最坏的情况，因为所有元数据除了文件大小存储在元数据服务器上。
QFS for Solaris、StorNext/Xsan：如果不进行大量投资，则无法获得出色的元数据性能。

所以这没有帮助（除非你可以恢复 dualfs）。

就您而言，最好的答案是尽可能增加主轴数。最丑陋但最便宜和最实用的方法是购买几年前在 Ebay 上的企业级 JBOD（或两个）和光纤通道卡。如果您仔细寻找，您应该能够将成本控制在 500 美元左右。搜索条件“146gb”和“73gb”将大有帮助。您应该能够说服卖家就此类商品达成交易，因为他们有很多这样的商品，但几乎没有感兴趣的买家：

http://cgi.ebay.ca/StorageTek-Fibre-Channel-2TB-14-Bay-HDD-Array-JBOD-NAS-/120654381562?pt=UK_Computing_Networking_SM&hash=item1c178fc1fa#ht_2805wt_1056

在所有驱动器上设置 RAID-0 条带。认真备份数据，因为其中一两个驱动器不可避免地会出现故障。使用 tar 进行备份，而不是 cp 或 rsync，这样接收单个驱动器就不必处理数百万个 inode。

这是我发现的（无论如何，在这一特定的历史时刻）增加 2-4 TB 范围内文件系统的 IOP 最便宜的方法。

希望这会有所帮助——或者至少很有趣！

Answer

我将用我对你的问题的回答来交换你对我问题的回答：要在 /proc 或 /sys 中调整哪些旋钮才能将所有的 inode 保存在内存中？

现在我来回答你的问题：

我正在努力解决类似的问题，当服务器负载很重时，我试图让 ls -l 通过 NFS 快速处理包含几千个文件的目录。

NetApp 出色地完成了这项任务；到目前为止，我尝试过的所有其他产品都做不到。

研究这个问题时，我发现了一些将元数据与数据分离的文件系统，但它们都有一些缺点：

dualfs：有一些针对 2.4.19 的补丁，但没有太多其他补丁。
lustre：ls -l 是最坏的情况，因为所有元数据除了文件大小存储在元数据服务器上。
QFS for Solaris、StorNext/Xsan：如果不进行大量投资，则无法获得出色的元数据性能。

所以这没有帮助（除非你可以恢复 dualfs）。

就您而言，最好的答案是尽可能增加主轴数。最丑陋但最便宜和最实用的方法是购买几年前在 Ebay 上的企业级 JBOD（或两个）和光纤通道卡。如果您仔细寻找，您应该能够将成本控制在 500 美元左右。搜索条件“146gb”和“73gb”将大有帮助。您应该能够说服卖家就此类商品达成交易，因为他们有很多这样的商品，但几乎没有感兴趣的买家：

http://cgi.ebay.ca/StorageTek-Fibre-Channel-2TB-14-Bay-HDD-Array-JBOD-NAS-/120654381562?pt=UK_Computing_Networking_SM&hash=item1c178fc1fa#ht_2805wt_1056

在所有驱动器上设置 RAID-0 条带。认真备份数据，因为其中一两个驱动器不可避免地会出现故障。使用 tar 进行备份，而不是 cp 或 rsync，这样接收单个驱动器就不必处理数百万个 inode。

这是我发现的（无论如何，在这一特定的历史时刻）增加 2-4 TB 范围内文件系统的 IOP 最便宜的方法。

希望这会有所帮助——或者至少很有趣！

Question 2

磁盘包含文件数据，而 SSD 包含所有元数据...是否有支持此功能的文件系统？

btrfs 在某种程度上支持这一点，btrfs 维基。可以为元数据指定 raid1（为数据指定 raid0 - 大多数数据最终都会存储在大型 HDD 上），这样 SSD 就会始终拥有元数据的副本以供读取（我不知道 btrfs 在选择读取元数据的源时会有多聪明）。我还没有看到过这种设置的任何基准测试。

Answer

磁盘包含文件数据，而 SSD 包含所有元数据...是否有支持此功能的文件系统？

btrfs 在某种程度上支持这一点，btrfs 维基。可以为元数据指定 raid1（为数据指定 raid0 - 大多数数据最终都会存储在大型 HDD 上），这样 SSD 就会始终拥有元数据的副本以供读取（我不知道 btrfs 在选择读取元数据的源时会有多聪明）。我还没有看到过这种设置的任何基准测试。

Question 3

不幸的是没有答案，尽管我确实在谷歌上搜索了半个小时的答案。

创建一个跨两个块设备的文件系统：一个 SSD 和一个磁盘；磁盘包含文件数据，SSD 包含所有元数据（包括目录条目、inode 和 POSIX 扩展属性）。是否有支持此功能的文件系统？它能否在系统崩溃（断电）后继续存在？

这正是我想要的。

有关链接，请参阅此 pastebin，因为我不允许发布多个链接......

http://www.notehub.org/2014/10/2/external-metadata-more-information

这里讨论了 btrfs 的多设备支持：

Btrfs：与多种设备协同工作，作者：Jonathan Corbet，2013 年 12 月 30 日（LWN），[链接][1]

但是，尽管您可以将元数据 (-m raid1) 镜像到 SSD，但您仍然不得不使用 SSD 来存储数据 (-d raid0)，至少是部分存储。

好消息是目前正在开展一些工作：

专用元数据驱动器 扬·施密特和阿恩·詹森 （尚未进入内核）我们能够非常轻松地拆分数据和元数据 IO。元数据往往由寻道控制，对于许多应用程序来说，将元数据放在更快的 SSD 上是有意义的。[链接][2]

如果您愿意使用 IBM 专有的通用并行文件系统 (GPFS)，那么这似乎已经是可能的。阅读“如何将所有 GPFS 文件系统元数据迁移到 SSD”：[链接][3]

Answer