无法解压维基百科转储
我的用例是需要解析维基百科文章中的文本。https://dumps.wikimedia.org/enwiki/20221001/包含我想要的文件。本质上,文章被分解成几对压缩文件:一个由维基百科文章子集组成的 xml 文档,以及一个包含与 xml 文档相关的元数据的文本文件。通常,xml 文档压缩后大小为 200MB,文本文件压缩后大小不到 1MB。 例如,这是上面引用的转储页面上的一对文件: enwiki-20221001-pages-articles-multistream1.xml-p1p41242.bz2 251.7 MB enwiki-20221...