无法解压维基百科转储

2024-10-24 • tag-icon

我的用例是需要解析维基百科文章中的文本。https://dumps.wikimedia.org/enwiki/20221001/包含我想要的文件。本质上，文章被分解成几对压缩文件：一个由维基百科文章子集组成的 xml 文档，以及一个包含与 xml 文档相关的元数据的文本文件。通常，xml 文档压缩后大小为 200MB，文本文件压缩后大小不到 1MB。

例如，这是上面引用的转储页面上的一对文件：

enwiki-20221001-pages-articles-multistream1.xml-p1p41242.bz2 251.7 MB

enwiki-20221001-pages-articles-multistream-index1.txt-p1p41242.bz2 221 KB

使用 WinZip（试用版），我可以提取文本文件。但是，当我尝试从文章文件中提取 xml 文件时，WinZip 提示文件已损坏，并建议保存它能够提取的内容。无论我尝试提取哪个压缩的 xml 文件，它总是能节省相同大小的内容——大约 3KB。

我认为问题可能是文件大小，因此我压缩了一个 4GB 的文件并尝试提取该文件，并且成功了。

我不知道该怎么办。

答案1

尝试再次下载该文件。

如果出现同样问题，请尝试使用其他程序解压缩。

示例产品： 7Zip和班迪齐普。

答案1

相关内容