我正在尝试打开损坏的 Word 文档。我尝试了不同的编码选项。如果有人知道我可以使用的工具。
以下是 HxD (十六进制编辑器) 中的代码片段输出
°qÄ<½r5!™¾=§Œ¾Âúþ¹äUiÊ(Ž?Áu\[.Ôy°ä”pMSè
¦é´EW5ð]îÖzpÍgëªI£m?dÞÍ[ñøÇàÆ/ú¡ òi9uo'ëâp?.m쬃â0Î6…5
Word Doc 文件的 HxD 截图:
答案1
您可以尝试下面的方法,看看是否可以帮助您。
当您使用新的空白 Microsoft Word 文件作为容器并将有问题的文档插入其中时,某些文本编码问题会得到解决。从插入菜单中,选择“对象”->“从文件创建”,然后选择有问题的文档并单击“确定”按钮将其内容放入新文档中。读取文档数据以处理文件插入命令的操作可以强制 Microsoft Word 应用正确的编码。
答案2
答案3
我创建了一个 Libreoffice“Word”文档,其中包含默认字体的“Hello World!”,并将其保存为 .odt、.docx 和 .doc 格式:
十六进制转储的前五行如下所示:
$ od -Ax -t x1z -w12 Untitled\ 1.odt | head -n 5
000000 50 4b 03 04 14 00 00 08 00 00 c1 63 >PK.........c<
00000c 4a 55 5e c6 32 0c 27 00 00 00 27 00 >JU^.2.'...'.<
000018 00 00 08 00 00 00 6d 69 6d 65 74 79 >......mimety<
000024 70 65 61 70 70 6c 69 63 61 74 69 6f >peapplicatio<
000030 6e 2f 76 6e 64 2e 6f 61 73 69 73 2e >n/vnd.oasis.<
$ od -Ax -t x1z -w12 Untitled\ 1.docx | head -n 5
000000 50 4b 03 04 14 00 08 08 08 00 c8 63 >PK.........c<
00000c 4a 55 00 00 00 00 00 00 00 00 00 00 >JU..........<
000018 00 00 0b 00 00 00 5f 72 65 6c 73 2f >......_rels/<
000024 2e 72 65 6c 73 ad 92 4d 4b 03 41 0c >.rels..MK.A.<
000030 86 ef fd 15 43 ee dd 6c 2b 88 c8 ce >....C..l+...<
$ od -Ax -t x1z -w12 Untitled\ 1.doc | head -n 5
000000 d0 cf 11 e0 a1 b1 1a e1 00 00 00 00 >............<
00000c 00 00 00 00 00 00 00 00 00 00 00 00 >............<
000018 3b 00 03 00 fe ff 09 00 06 00 00 00 >;...........<
000024 00 00 00 00 00 00 00 00 01 00 00 00 >............<
000030 0f 00 00 00 00 00 00 00 00 10 00 00 >............<
...基于此,我想说;如果您的文件是“Word”文档,那么它就会严重损坏,或者不完整(开头至少缺少几个字节 - 或一个块?)。
还请注意https://docs.fileformat.com/word-processing/docx/指出 docx 是一个包含多个 XML 文件的 zip 文件,并且这(总是?)通过文件中的前两个字节反映出来,就像PK
PK-Zip 一样(我相信)。
在解压缩之前尝试解密压缩数据是没有意义的...
而且由于明显的“PK”,因此压缩头可能被损坏或丢失,或者“文档格式”不是这样的文件;
人们可能希望更深入地研究这一点:
https://docs.fileformat.com/word-processing/doc/