如何处理/存档/访问大量小文件

Question

关于适当的存档文件格式，也许您根本不需要存档它？尝试使用tar而不是zip。如果这没有帮助，请尝试将它们组织成层次结构，类似于git或squid通过分离顶级与第二级子目录在其缓存目录中存储大量文件的方式，例如：16/256/64，这样当您尝试打开这些文件时，未确认的 I/O 请求数量就会减少。

其次您应该考虑缓存，这里有一些建议：

使用Redis或者使用 Memcached 将已经读取的数据缓存在内存中，
尝试将它们放入某个文件系统，例如内存文件系统或者临时文件，这样就驻留在内存中，
使用虚拟内存触摸器，例如vmtouch可以将文件映射到虚拟内存中，例如将文件放在内存中：vmtouch -vt file123.geo，或监视整个文件夹，请尝试：vmtouch -dl /path/dir

但是如果文件很小，并且包含一些特定数据（如地理哈希），也许可以考虑将它们导入数据库？例如玛拉雅数据库或者MongoDB? 或者使用以下方法对它们进行索引Solr 搜索或者弹性搜索? 但最终这一切都取决于您的具体技术要求。

Answer 1

关于适当的存档文件格式，也许您根本不需要存档它？尝试使用tar而不是zip。如果这没有帮助，请尝试将它们组织成层次结构，类似于git或squid通过分离顶级与第二级子目录在其缓存目录中存储大量文件的方式，例如：16/256/64，这样当您尝试打开这些文件时，未确认的 I/O 请求数量就会减少。

其次您应该考虑缓存，这里有一些建议：

使用Redis或者使用 Memcached 将已经读取的数据缓存在内存中，
尝试将它们放入某个文件系统，例如内存文件系统或者临时文件，这样就驻留在内存中，
使用虚拟内存触摸器，例如vmtouch可以将文件映射到虚拟内存中，例如将文件放在内存中：vmtouch -vt file123.geo，或监视整个文件夹，请尝试：vmtouch -dl /path/dir

但是如果文件很小，并且包含一些特定数据（如地理哈希），也许可以考虑将它们导入数据库？例如玛拉雅数据库或者MongoDB? 或者使用以下方法对它们进行索引Solr 搜索或者弹性搜索? 但最终这一切都取决于您的具体技术要求。

如何处理/存档/访问大量小文件

答案1

相关内容