gz 压缩比会随着时间的推移而提高吗?

gz 压缩比会随着时间的推移而提高吗?

我有一些过程可以创建数百万条高度相似的行的流。我正在将其传送到gz.在这样的设置中,压缩比会随着时间的推移而提高吗?即,100 万条相似行的压缩率是否比 10,000 条相似行的压缩率更好?

答案1

它会在一定程度上发挥作用,并且会趋于平衡。压缩算法对它们查看的块的大小 ( bzip2) 和/或它们保存的包含先前模式信息的表 ( gzip) 有限制。

在 gzip 的情况下,一旦表已满,旧条目就会被推出,并且压缩不会进一步改善。根据您的压缩品质因数 (-0-9) 和输入的重复性,此填充当然可能需要一段时间,而且您可能不会注意到。

答案2

不多。 DEFLATE 算法所覆盖的“距离”gzip被限制为 32 KB。

维基百科链接 -> 放气

值得针对各种gzip压缩级别进行基准测试,并考虑压缩包2xz

答案3

这是一个gzip算法概述

简而言之,在考虑哈希所需的初始数据后,它不会显着改善。

相关内容