我有几千个单独 GZip 压缩的文件(当然传递标志,-n
因此输出是确定性的)。然后他们进入 Git 存储库。我刚刚发现,对于其中 3 个文件,Gzip 在 macOS 和 Linux 上生成的输出并不相同。这是一个例子:
苹果系统
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | shasum -a 256
0ac378465b576991e1c7323008efcade253ce1ab08145899139f11733187e455 -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip --fast -n | shasum -a 256
6e145c6239e64b7e28f61cbab49caacbe0dae846ce33d539bf5c7f2761053712 -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip -n | shasum -a 256
3562fd9f1d18d52e500619b4a5d5dfa709f5da8601b9dd64088fb5da8de7b281 -
$ gzip --version
Apple gzip 272.250.1
Linux
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | shasum -a 256
0ac378465b576991e1c7323008efcade253ce1ab08145899139f11733187e455 -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip --fast -n | shasum -a 256
10ac8b80af8d734ad3688aa6c7d9b582ab62cf7eda6bc1a0f08d6159cad96ddc -
$ cat Engine/Extras/ThirdPartyNotUE/NoRedist/EnsureIT/9.7.0/bin/finalizer | gzip -n | shasum -a 256
cbf249e3a35f62a4f3b13e2c91fe0161af5d96a58727d17cf7a62e0ac3806393 -
$ gzip --version
gzip 1.6
Copyright (C) 2007, 2010, 2011 Free Software Foundation, Inc.
Copyright (C) 1993 Jean-loup Gailly.
This is free software. You may redistribute copies of it under the terms of
the GNU General Public License <http://www.gnu.org/licenses/gpl.html>.
There is NO WARRANTY, to the extent permitted by law.
Written by Jean-loup Gailly.
这怎么可能?我认为 GZip 实现是完全标准的?
更新:只是为了确认 macOS 和 Linux 版本在大多数情况下确实会产生相同的输出,两个操作系统都输出相同的哈希值:
$ echo "Vive la France" | gzip --fast -n | shasum -a 256
af842c0cb2dbf94ae19f31c55e05fa0e403b249c8faead413ac2fa5e9b854768 -
答案1
请注意,GZip 中的压缩算法 (Deflate) 并不是严格双射的。详细说明:对于某些数据,根据算法实现和使用的参数,可能有不止一种可能的压缩输出。因此根本无法保证 Apple GZip 和 gzip 1.6 会返回相同的结果压缩的输出。这些输出都是有效的 GZip 流,该标准只是保证这些可能的输出中的每一个都将是解压的到相同的原始数据。
答案2
格式应该非常稳定,但是请参阅它的描述。它包含一个操作系统 ID 字段。显然,对于 macOS、Linux 和 FreeBSD 来说,这可能有所不同……
答案3
Gzip 格式是标准的,但实施 - 不一定。维基百科列出了至少 5 个免费/oss 独立的实现,还有专有的实现。苹果显然输出了不同的版本字符串。
格式和算法都允许很大的自由度和很多设计选择,这些选择要么是品味问题,要么是在不同的用例中工作得更好。
我通常希望仅对于一小部分小文件的不同实现之间的结果是相同的。
答案4
你确定压缩前的文件是一样的吗?一些 VCS chekout 文本文件的方式不同,是否使用 UTF8,Windows 或 Linux 换行符,...
对原始文件运行 SHA 命令,看看您是否在做同样的事情。
也许尝试压缩级别 0 看看是否能正常工作。
找到一些可以在此处发布的简单文件,这些文件在两个系统上的编码方式不同。
文件在两个系统上都能正确解压缩吗?再次运行 SHA 命令。
并始终问自己:这重要吗? :)