我有一些过程可以创建数百万条高度相似的行的流。我正在将其传送到gz
.在这样的设置中,压缩比会随着时间的推移而提高吗?即,100 万条相似行的压缩率是否比 10,000 条相似行的压缩率更好?
答案1
它会在一定程度上发挥作用,并且会趋于平衡。压缩算法对它们查看的块的大小 ( bzip2
) 和/或它们保存的包含先前模式信息的表 ( gzip
) 有限制。
在 gzip 的情况下,一旦表已满,旧条目就会被推出,并且压缩不会进一步改善。根据您的压缩品质因数 (-0
至-9
) 和输入的重复性,此填充当然可能需要一段时间,而且您可能不会注意到。
答案2
答案3
这是一个gzip算法概述。
简而言之,在考虑哈希所需的初始数据后,它不会显着改善。