无法解压维基百科转储

无法解压维基百科转储

我的用例是需要解析维基百科文章中的文本。https://dumps.wikimedia.org/enwiki/20221001/包含我想要的文件。本质上,文章被分解成几对压缩文件:一个由维基百科文章子集组成的 xml 文档,以及一个包含与 xml 文档相关的元数据的文本文件。通常,xml 文档压缩后大小为 200MB,文本文件压缩后大小不到 1MB。

例如,这是上面引用的转储页面上的一对文件:

enwiki-20221001-pages-articles-multistream1.xml-p1p41242.bz2 251.7 MB

enwiki-20221001-pages-articles-multistream-index1.txt-p1p41242.bz2 221 KB

使用 WinZip(试用版),我可以提取文本文件。但是,当我尝试从文章文件中提取 xml 文件时,WinZip 提示文件已损坏,并建议保存它能够提取的内容。无论我尝试提取哪个压缩的 xml 文件,它总是能节省相同大小的内容——大约 3KB。

我认为问题可能是文件大小,因此我压缩了一个 4GB 的文件并尝试提取该文件,并且成功了。

我不知道该怎么办。

答案1

尝试再次下载该文件。

如果出现同样问题,请尝试使用其他程序解压缩。

示例产品: 7Zip班迪齐普

相关内容