我已经使用以下方式下载了 120 GB 的 tar.gz 数据集下载 Accelerator Plus,并使用以下命令将其提取:
tar -xvzf train_val2018.tar.gz
提取后的数据集应包含 8,142 个多一点的文件夹和 461,939 个图像文件。
当我打开解压的文件夹时,它确实包含部分数据集。然而,其中很大一部分缺失了——它只包含 3,542 个文件夹和 179,689 个文件。
在 Ubuntu 上使用文件资源管理器或内置文件提取器 GUI 进行提取只会带来更糟糕的结果。我也尝试过 Windows 上的各种应用程序,例如 WinZip、WinRAR 和 7Zip。这些都不起作用,但它们的问题在于它们在处理如此大的数据集时存在内存问题。
该文件可能已损坏?该文件的大小与数据集网站中提到的大小相同,我使用 DAP 下载了几个较大的文件,从未遇到过损坏问题。因此,我想知道内置提取器是否存在某些限制或其他问题。
我指的数据集是iNaturalist 2018 竞赛数据集。
答案1
文件可能已损坏吗?
是的。该网站还提供了一个工具供您自行检查。从链接中我看到了 4 个校验和,其中第一个是供您下载的。
md5sum train_val2018.tar.gz should produce b1c6952ce38f31868cc50ea72d066cc3
md5sum train2018.json.tar.gz should produce bfa29d89d629cbf04d826a720c0a68b0
md5sum val2018.json.tar.gz should produce f2ed8bfe3e9901cdefceb4e53cd3775d
md5sum test2018.tar.gz should produce 4b71d44d73e27475eefea68886c7d1b1
md5sum test2018.json.tar.gz should produce fc717a7f53ac72ed8b250221a08a4502
如果您得到不同的结果,则表示您的下载已损坏。
答案2
是的,当然可以。如果你读过他们的检查步骤:
Running md5sum train_val2018.tar.gz should produce b1c6952ce38f31868cc50ea72d066cc3
如果您不想手动比较 md5sum,您可以创建一个文件 md5sum-db(名称可以是任何您喜欢的名称),包含以下内容:
b1c6952ce38f31868cc50ea72d066cc3 训练_val2018.tar.gz
进入压缩数据库所在的文件夹并运行:
md5sum -c md5sum-db
如果哈希校验匹配,您将收到以下输出:
train_val2018.tar.gz: OK
别的
train_val2018.tar.gz: FAILED
md5sum: WARNING: 1 computed checksum did NOT match
检查 gz 文件的另一种方法是使用测试它:
gunzip -t file.tar.gz
注意:此方法不能确保档案中包含的数据的完整性。