100+ GB 的 tar.gz 文件无法正确提取

100+ GB 的 tar.gz 文件无法正确提取

我已经使用以下方式下载了 120 GB 的 tar.gz 数据集下载 Accelerator Plus,并使用以下命令将其提取:

tar -xvzf train_val2018.tar.gz

提取后的数据集应包含 8,142 个多一点的文件夹和 461,939 个图像文件。

当我打开解压的文件夹时,它确实包含部分数据集。然而,其中很大一部分缺失了——它只包含 3,542 个文件夹和 179,689 个文件。

在 Ubuntu 上使用文件资源管理器或内置文件提取器 GUI 进行提取只会带来更糟糕的结果。我也尝试过 Windows 上的各种应用程序,例如 WinZip、WinRAR 和 7Zip。这些都不起作用,但它们的问题在于它们在处理如此大的数据集时存在内存问题。

该文件可能已损坏?该文件的大小与数据集网站中提到的大小相同,我使用 DAP 下载了几个较大的文件,从未遇到过损坏问题。因此,我想知道内置提取器是否存在某些限制或其他问题。

我指的数据集是iNaturalist 2018 竞赛数据集

答案1

文件可能已损坏吗?

是的。该网站还提供了一个工具供您自行检查。从链接中我看到了 4 个校验和,其中第一个是供您下载的。

md5sum train_val2018.tar.gz should produce b1c6952ce38f31868cc50ea72d066cc3
md5sum train2018.json.tar.gz should produce bfa29d89d629cbf04d826a720c0a68b0
md5sum val2018.json.tar.gz should produce f2ed8bfe3e9901cdefceb4e53cd3775d
md5sum test2018.tar.gz should produce 4b71d44d73e27475eefea68886c7d1b1
md5sum test2018.json.tar.gz should produce fc717a7f53ac72ed8b250221a08a4502

如果您得到不同的结果,则表示您的下载已损坏。

答案2

是的,当然可以。如果你读过他们的检查步骤:

Running md5sum train_val2018.tar.gz should produce b1c6952ce38f31868cc50ea72d066cc3

如果您不想手动比较 md5sum,您可以创建一个文件 md5sum-db(名称可以是任何您喜欢的名称),包含以下内容:

b1c6952ce38f31868cc50ea72d066cc3 训练_val2018.tar.gz

进入压缩数据库所在的文件夹并运行:

md5sum -c md5sum-db

如果哈希校验匹配,您将收到以下输出:

 train_val2018.tar.gz: OK

别的

train_val2018.tar.gz: FAILED
md5sum: WARNING: 1 computed checksum did NOT match

检查 gz 文件的另一种方法是使用测试它:

gunzip -t file.tar.gz

注意:此方法不能确保档案中包含的数据的完整性。

相关内容