以下是问题的描述:我正在尝试以我所知道的最佳方式压缩恢复前的磁盘映像,以便如果我的客户端数据因恢复而损坏,他们可以返回到原始磁盘映像并尝试直接从 dd 映像中提取损坏的数据。
现在介绍一些有关磁盘本身的信息:它是 1TB SSD,有 2 个分区,一个分区包含操作系统和大多数数据,另一个分区包含两个巨大的几乎重复的文件夹,这些文件夹来自两个不同的文件恢复程序(它们似乎是破坏硬盘的高手)。因此,在磁盘映像中,第一和第二个分区之间肯定有很多重复文件,而第二个分区中肯定几乎只有重复文件。重复文件的一个例子可能是:第一个副本位于第一个分区的前 GB 中,第二个副本位于第二个分区的开头,第三个副本位于第二个分区的末尾。
话虽如此:是否有任何软件可以在压缩文件本身之前正确删除如此长距离的冗余(甚至可能彼此相距超过 500GB)?
我尝试过唯一一款声称可以做到这一点的软件,压缩通过其-U
选项并有效地使用其-n
选项,显然不会应用比冗余删除步骤更多的操作,我仅获得从 1TB 到 ~730GB 的减少,在 16GB RAM i7 系统上花费了 67 小时,这看起来很棒,但考虑到我在新 SSD 上恢复的分区中注意到的重复数据量,也显得有些乏善可陈。
我一直在使用压缩正确吗?有没有更快的方法?它真的可以删除所有重复数据,即使在数百 GB 的距离内?还有其他软件能够删除如此远距离的数据冗余吗?規模的--long
选项可以消除任何此类长距离冗余吗?磁盘空间使用量的差异是否会如此惊人,以至于我真的不应该节省时间并使用压缩磁盘映像規模或者lz4?
提前致谢。