我的用例是需要解析维基百科文章中的文本。https://dumps.wikimedia.org/enwiki/20221001/包含我想要的文件。本质上,文章被分解成几对压缩文件:一个由维基百科文章子集组成的 xml 文档,以及一个包含与 xml 文档相关的元数据的文本文件。通常,xml 文档压缩后大小为 200MB,文本文件压缩后大小不到 1MB。
例如,这是上面引用的转储页面上的一对文件:
enwiki-20221001-pages-articles-multistream1.xml-p1p41242.bz2 251.7 MB
enwiki-20221001-pages-articles-multistream-index1.txt-p1p41242.bz2 221 KB
使用 WinZip(试用版),我可以提取文本文件。但是,当我尝试从文章文件中提取 xml 文件时,WinZip 提示文件已损坏,并建议保存它能够提取的内容。无论我尝试提取哪个压缩的 xml 文件,它总是能节省相同大小的内容——大约 3KB。
我认为问题可能是文件大小,因此我压缩了一个 4GB 的文件并尝试提取该文件,并且成功了。
我不知道该怎么办。