预取小文件缓存

Question 1

量化可接受的性能。也许下载一个小型项目的全部内容只需一两秒。根据用户体验定义性能目标有助于明确目标。

检查文件的存储方式。最糟糕的情况是数以万计的文件，文件和元数据有大量的 IO。数据库或档案库会更好，可以打包成更大的包，减少 IO。换句话说，版本控制系统和档案库 tar，尤其是在处理随时间推移的代码时。

在 Linux 中，开发人员喜欢重新发明轮子。因此，有许多块缓存实现，其中维护最多的可能是 lvmcache 和 bcache。至少，这两个都是主线内核，因此像这样的比较测试.虽然看起来RHEL 尚未准备好支持 bcache。

混合块设备不可能像全闪存设备一样快速或易于使用。缓存会丢失。缓存设备会出现故障，此时您最好知道它是处于写通模式还是写回模式，以及恢复是否会导致数据丢失。这些都是为了降低整体存储成本而做出的权衡。

这些是块设备，它们位于文件系统的下一级，并且无法感知小文件。但是，根据您想要进行调优的深度，它们可能能够检测连续的块 I/O。这可能是一个可接受的代理，具体取决于文件的碎片程度。

具有良好存储文档的发行版将涵盖 lvmcache。以下是RHEL 9 中的 lvmcache 示例。您可能想要类型缓存，仅通过 writecache 进行写入将无法获得足够的提升。

请注意，底层 dm-cache 可调参数提到了“sequential_threshold”，但这没有效果。现代内核用更快的缓存替换策略替换了缓存替换策略，但没有旋钮。

块缓存没有预取机制，尤其是针对目标文件子集。同样，块层不知道文件。某些东西需要执行 I/O 才能知道某些东西是热门的。翻阅 Server Fault 档案，有些人有通过读取文件预热缓存。

请注意，RAM 仍然比固态硬盘快，而且 Linux 始终维护文件缓存。更多 RAM 将增加此缓存的工作集，但请注意，一开始它需要很慢，直到命中率提高。不过，我建议在投入过多 RAM 来解决这个问题之前，先投资全闪存。

Answer