Hadoop 滚动小文件

Question 1

Media6degrees 提出了一个非常好的解决方案来合并 Hadoop 中的小文件。您可以直接使用他们的 jar。 http://www.jointhegrid.com/hadoop_filecrush/index.jsp

Answer

Media6degrees 提出了一个非常好的解决方案来合并 Hadoop 中的小文件。您可以直接使用他们的 jar。 http://www.jointhegrid.com/hadoop_filecrush/index.jsp

Question 2

您是否考虑过使用 Hadoop 存档？可以将它们视为 HDFS 的 tar 文件。 http://hadoop.apache.org/common/docs/r0.20.2/hadoop_archives.html

Answer

您是否考虑过使用 Hadoop 存档？可以将它们视为 HDFS 的 tar 文件。 http://hadoop.apache.org/common/docs/r0.20.2/hadoop_archives.html

Question 3

您需要做的是编写一个简单的连接程序，其中包含一个身份映射器和一个或几个身份缩减器。此程序将允许您将小文件连接成几个大文件，以减轻 Hadoop 的负载。

这可能是一项非常繁重的任务，而且会浪费空间，但由于 HDFS 的设计，这是必要的。如果 HDFS 是一流的文件系统，那么处理起来就会容易得多。

Answer

您需要做的是编写一个简单的连接程序，其中包含一个身份映射器和一个或几个身份缩减器。此程序将允许您将小文件连接成几个大文件，以减轻 Hadoop 的负载。

这可能是一项非常繁重的任务，而且会浪费空间，但由于 HDFS 的设计，这是必要的。如果 HDFS 是一流的文件系统，那么处理起来就会容易得多。

相关内容