我找到一个旧的 Word 文件 (.doc),其中包含一本我想恢复的书。但该文件大小为 3 GB,LibreOffice 和 Google Docs 都无法处理它 - 它们在处理过程中崩溃(Google 甚至无法上传并转换它)。
我该怎么办?我没有获得许可的 MS Word,但我认为它也会存在同样的问题。
答案1
我要做的第一件事是验证该文件实际上是 Word .DOC 文件,而不是其他类型的文件。任何文件都可以重命名为具有不同的扩展名,因此它可能是其他文件,例如档案、DOCX 文件,甚至是某种多媒体文件。
如果它确实是 MS Word DOC 文件,那么文件应该以已知的字节序列开头。旧的 MS DOC 文件通常以十六进制值 D0 CF 11 E0 A1 B1 1A E1 开头。使用十六进制编辑器或十六进制转储工具查看文件的第一个字节可以帮助确定它是什么类型的文件。
如果是 Word DOC 文件,则很可能已损坏。3GB 大小的 Word .DOC 文件比其设计格式的容量大得多。.DOC 文件只能容纳几十兆字节的文本,因此,为了达到这么大的大小,文件必须包含一些巨大的图形或其他嵌入内容。即便如此,它仍然比 .DOC 文件的最大容量大得多。
如果该文件实际上是 Word DOC 文件,包含您认为的内容,则最好的选择是尝试使用仅检索文件文本部分并忽略其他内容的程序打开它。一种可能性是Antiword,一款用于从 Word 文档中提取文本的旧命令行工具。它相当老旧了,需要进行一些调整才能在现代 Windows 计算机上运行,但我相信它可以在 Linux 上运行。
如果您可以使用十六进制编辑器或转储工具检查文件的开头,这可以帮助确定它实际上是什么类型的文件。如果该文件实际上不是 .DOC 文件,那么下一步就是弄清楚它实际上是什么类型的文件。有一个常见文件签名列表在维基百科上。