如何从损坏的 .docx 文件中提取数据?

如何从损坏的 .docx 文件中提取数据?

我女朋友的 .docx 文件损坏了,我正尝试从中恢复文本。我了解到 .docx 本质上是一个 zip 文件,其中包含文件夹和一堆 .xml 文件(其中一个包含文档文本)。我在 Ubuntu 10.10 上按照以下命令解压缩存档:

unzip portfolio.docx -d file-dir

我得到的结果是:

End-of-central-directory signature not found. Either this file is not a zipfile, or it constitutes one disk of multi-part archive. In the latter case the central directory and zipfile comment will be found on the last disk(s) of this archieve.
unzip: cannot find zipfile directory in one of portfolio.docx or portfolio.docx.zip, and cannot find portfolio.docx.ZIP, period.

在 Windows 8.1 上,我尝试了 WinZip、7zip、WinRar 和 Zip2Fix,但没有任何效果。

该文件大约有 20Kb,所以我知道里面有一些内容。有什么方法可以强制解压缩

答案1

运行这个:

cp portfolio.docx portfolio.zip

或者只需将其重命名portfolio.docxportfolio.zip,您就应该能够portfolio.zip使用档案管理器打开生成的文件并提取它们。

编辑:我刚刚进行了快速检查,这些文件可能位于word/document.xmldocProps/core.xml位于提取的文件夹中。

另一处编辑:如果生成的 zip 文件已损坏,请查看这里

相关内容