压缩许多类似的大文件

Question 1

根据您的详细信息，我假设您已经验证您的文件确实有 99％的共同数据，并且其中有连续（或几乎连续）的 1％的差异。

首先，您应该使用 tar 创建一个包含文件的存档。为了进行测试，我将创建一个包含 10 个文件的 .tar 文件，因此大小为 300MB。

然后，使用 xz，您必须将其设置为字典大于一个文件的大小。由于您没有说明是否有内存限制，因此我建议使用 xz -9。不使用所有可用内存是没有意义的。

我还将使用 --extreme 预设来测试它是否有所不同。

词典大小

在一份我手头有的文档中 -地点- 据说字典大小大致等于解压缩器的内存使用量。 -1 参数表示字典大小为 1MiB，-6 表示 10MiB（或在同一手册的另一部分中为 8MiB）。这就是为什么将这些文件打包在一起没有任何好处的原因。使用 -9 会使解压缩器（以及字典）的大小为 64MiB，我认为这就是您想要的。

编辑

另一种可能性是使用其他压缩器。我会使用 7zip，但会先将这些文件打包成 tar，然后再使用 7zip 压缩。

根据文件内容，也许您可以使用带有 PPM-D 方法的 7zip（而不是 LZMA 或 LZMA2，这是默认方法，与 xz 使用的方法相同）

不好：Zip (dict = 32kB)、Bzip (dict = 900 kB)。

Answer

根据您的详细信息，我假设您已经验证您的文件确实有 99％的共同数据，并且其中有连续（或几乎连续）的 1％的差异。

首先，您应该使用 tar 创建一个包含文件的存档。为了进行测试，我将创建一个包含 10 个文件的 .tar 文件，因此大小为 300MB。

然后，使用 xz，您必须将其设置为字典大于一个文件的大小。由于您没有说明是否有内存限制，因此我建议使用 xz -9。不使用所有可用内存是没有意义的。

我还将使用 --extreme 预设来测试它是否有所不同。

词典大小

在一份我手头有的文档中 -地点- 据说字典大小大致等于解压缩器的内存使用量。 -1 参数表示字典大小为 1MiB，-6 表示 10MiB（或在同一手册的另一部分中为 8MiB）。这就是为什么将这些文件打包在一起没有任何好处的原因。使用 -9 会使解压缩器（以及字典）的大小为 64MiB，我认为这就是您想要的。

编辑

另一种可能性是使用其他压缩器。我会使用 7zip，但会先将这些文件打包成 tar，然后再使用 7zip 压缩。

根据文件内容，也许您可以使用带有 PPM-D 方法的 7zip（而不是 LZMA 或 LZMA2，这是默认方法，与 xz 使用的方法相同）

不好：Zip (dict = 32kB)、Bzip (dict = 900 kB)。

Question 2

如果它们真的像你说的 99% 相似，你应该能够使用差异或者使用类似的算法来计算文件之间的差异。差异是累积（即每个文件与第一个文件略有不同），或者任何两个文件之间的差异几乎相同？

如果不是累积的，你应该能够：

以任意文件作为“基线”
运行bsdiff比较基线文件与每个附加文件
将每个差异存储为单独的文件，与基线文件一起存储
运行压缩器，类似xz结果（基线+差异）。

xz结果应该比仅仅处理整个档案要小得多。

然后，您可以通过在基线顶部“应用”差异来“重建”原始文件，以取出其他每个文件。

Answer

如果它们真的像你说的 99% 相似，你应该能够使用差异或者使用类似的算法来计算文件之间的差异。差异是累积（即每个文件与第一个文件略有不同），或者任何两个文件之间的差异几乎相同？

如果不是累积的，你应该能够：

以任意文件作为“基线”
运行bsdiff比较基线文件与每个附加文件
将每个差异存储为单独的文件，与基线文件一起存储
运行压缩器，类似xz结果（基线+差异）。

xz结果应该比仅仅处理整个档案要小得多。

然后，您可以通过在基线顶部“应用”差异来“重建”原始文件，以取出其他每个文件。

Question 3

你（我）可以将 tar 与一些能够进行远程模式检测的归档器一起使用，例如，压缩或者压缩（自述)。两者都使用长距离冗余检测/重复数据删除，然后rzip使用bzip2，而lrzip使用xz(lzma)/ZPAQ：

rzip 是一个压缩程序，功能类似于 gzip 或 bzip2，但能够利用文件中的长距离冗余，这有时可以使 rzip 产生比其他程序更好的压缩率。... rzip 的主要优势是它具有 900 MB 的有效历史缓冲区。这意味着与其他常用的压缩程序相比，它可以在很远的距离内找到输入文件的匹配部分。相比之下，gzip 程序使用 32 KB 的历史缓冲区，而 bzip2 使用 900 KB 的历史缓冲区

lrzip 具有更大的缓冲区，并且在重复数据删除后可以使用许多压缩算法（非常快，快速，良好以及最好的算法之一 - ZPAQ）：

Lrzip 使用 rzip 的扩展版本，该版本首先进行长距离冗余度减少。lrzip 的修改使其能够根据内存大小进行扩展。

然后，数据将进行以下任一操作：1. 使用 lzma 压缩（默认），其压缩效果极佳，压缩速度大约是 bzip2 压缩的两倍……

其他方法是使用布普- 基于 git packfile 的具有块/段级重复数据删除功能的备份程序：

它使用滚动校验和算法（类似于 rsync）将大文件分成块。

Answer