gzip -t 可以检测 100% 的截断下载错误吗？

Question

gzip 格式的文件包含压缩数据的长度和未压缩数据的长度。然而，这是一种古老的格式，长度字段只有 32 位，因此现在它们被解释为长度模 2^32（即 4 GiB）。解压前，gzip检查压缩数据的校验和是否正确。解压后，gzip检查解压数据的校验和是否正确，以及解压数据的大小是否正确模2^32。

因此，如果压缩数据的大小（或解压缩数据的大小）小于 4 GiB，gzip 保证检测到截断的输入。但是，对于任意大小的文件，我看不出有任何理由说明这些检查就足够了。如果输入不是故意设计的，并且其长度以 4 GiB 为模均匀分布，则压缩长度和校验和匹配的可能性只有 1/2^64，此外，如果文件在多字节序列的中间或者未压缩数据的长度不匹配。（这并不一定会将机会减少到 1/2^96，因为压缩长度模 2^32 和未压缩长度模 2^32 是相关的。）因此，只有很小的机会出现未检测到的错误，但它不是零，我确信它可能是故意制作的。

请注意，此分析仅适用于 gzip 压缩文件由单个流组成的情况。gunzip可以解压缩由多个串联流组成的文件，并且无法检测文件是否包含有效的流序列，但需要更多的流。但是，您的生产链可能不会生成多流文件：gzip它本身不会生成，您必须手动连接多个运行的输出，或者使用其他工具（pkzip？）。

服务器未使用原子移动操作。

不幸的是，我认为没有一种完全可靠的方法来检测错误，而无需该方法或在服务器完成写入后计算的外部元数据（长度或加密校验和）。

Answer 1

gzip 格式的文件包含压缩数据的长度和未压缩数据的长度。然而，这是一种古老的格式，长度字段只有 32 位，因此现在它们被解释为长度模 2^32（即 4 GiB）。解压前，gzip检查压缩数据的校验和是否正确。解压后，gzip检查解压数据的校验和是否正确，以及解压数据的大小是否正确模2^32。

因此，如果压缩数据的大小（或解压缩数据的大小）小于 4 GiB，gzip 保证检测到截断的输入。但是，对于任意大小的文件，我看不出有任何理由说明这些检查就足够了。如果输入不是故意设计的，并且其长度以 4 GiB 为模均匀分布，则压缩长度和校验和匹配的可能性只有 1/2^64，此外，如果文件在多字节序列的中间或者未压缩数据的长度不匹配。（这并不一定会将机会减少到 1/2^96，因为压缩长度模 2^32 和未压缩长度模 2^32 是相关的。）因此，只有很小的机会出现未检测到的错误，但它不是零，我确信它可能是故意制作的。

请注意，此分析仅适用于 gzip 压缩文件由单个流组成的情况。gunzip可以解压缩由多个串联流组成的文件，并且无法检测文件是否包含有效的流序列，但需要更多的流。但是，您的生产链可能不会生成多流文件：gzip它本身不会生成，您必须手动连接多个运行的输出，或者使用其他工具（pkzip？）。

服务器未使用原子移动操作。

不幸的是，我认为没有一种完全可靠的方法来检测错误，而无需该方法或在服务器完成写入后计算的外部元数据（长度或加密校验和）。

gzip -t 可以检测 100% 的截断下载错误吗？

答案1

相关内容