数据可以压缩多少?

数据可以压缩多少?

数据压缩的规模是否存在科学极限?

我的意思是,压缩本质上是用较小的数据量来表示较大的数据量,例如表示 a=abc b=def 等...或者您可以拥有一个包含较大数据块的数据库并用哈希值表示它们,将哈希值写入文件,然后通过用相应的数据替换哈希值来重建它,但这里生日悖论很早就出现了,例如,如果您想用一位数字来表示两位数字,一位数字的最大组合数为 10,而两位数字的最大组合数为 100,这意味着这里的压缩率最多只有 10%...有没有更好的压缩文件的方法?

是否有某种方式来存储大型数据组合数据库,将它们表示在总计小于原始文件的文件中,然后传输它,然后在目的地重建它?

答案1

香农熵是无损数据压缩的极限。

答案2

嗯,这取决于你的算法、你的数据、你的数据的长度,以及你对返回精确数据的渴望程度。模式较少的数据压缩效果会比模式较多的数据差。

我没有任何研究来支持这一点,但最好的情况可能是像 RLE 或类似的算法,在一个充满零或相同字节的文件上。

使用有损压缩时,您会陷入主观因素 - 例如,以最低质量设置将文件压缩为 JPEG 会生成与原始图像几乎不相似的图像 - 但根据谁的说法呢?

相关内容