“查看源代码”——相当于 Word 文档?

“查看源代码”——相当于 Word 文档?

有时 Word 文档似乎或多或少会损坏,通常是在布局变得非常复杂并且文档多次转手和/或版本更改时。症状可能是在文档的某个位置按下或键时没有任何反应,而Backspace实际上Enter文档应该正常工作,或者格式似乎随机应用并重置。我想我们都遇到过这种情况。

通常很难确切知道哪里出了问题,因为 Word 内部发生的事情非常不透明。您可能有一个看起来是空的文档,但实际上,有关格式等的底层状态可能非常复杂。

在这些情况下,查看页面上显示的源代码会很有用;就像你在浏览器中可以做的那样查看源代码,理想情况下能够直接在源代码中进行编辑,就像使用 Latex 时一样。是否有用于 Microsoft Word 文档的“查看源”类型的命令或实用程序?

我猜没有这样的命令,否则我早就听说过了。如果是这样的话,有没有人有什么好的方法来解决 Word 文档中烦人的“隐藏格式”

我怀疑 .doc 和 .docx 格式可能存在一些差异;我对这两种情况都很感兴趣。

答案1

如果你主要对格式感兴趣,那么 Word 有一个很好的功能可以检查应用于文本和对象的所有类型的格式,称为显示格式。在 Word 2007 和 2010 中,此面板的快捷键是Shift+ F1

在此处输入图片描述

否则,如果您想更深入地了解文档格式,那么您可以查看 DOCX 文件的 XML。

  1. 在磁盘上找到您的 DOCX 文档。
  2. 将文档的扩展名从 .docx 更改为 .zip。
  3. 双击该文件并在默认存档管理器中打开它。
  4. 导航到 zip 程序中的“Word”文件夹并打开 文档.xml。这是构成文档主要内容的幕后代码,尽管其他文件也以其他方式使用,例如样式或字体信息。

您肯定需要一个像样的 XML 编辑器来查看数据,即使这样,它也相当复杂,而且对于大型文档来说会非常非常长。

对于 DOC 来说,没有简单的方法来“查看源代码”,因为它是由单独的流组成的二进制文件,因此没有简单的方法来查看其内容。

答案2

我想 .doc 格式相当难,所以我在这里帮不了你。但是,.docx 实际上是 zip 文件,所有详细信息都存储在 XML 文件中。因此,将文件重命名为 .zip 并查看源代码!

答案3

当涉及到像 *.doc 这样的二进制格式时,事情就比较棘手了。您可以使用 LibreOffice 的mso-转储器只需将解决方案克隆到本地机器并运行

python doc-dump.py \path\to\file.doc >output.xml

现在,二进制文件中的所有内容都将按照Word(.doc)二进制文件格式

还有字文件转储它更简单,但不如 mso-dumper 强大

不幸的是,这些仅用于分析结构,没有工具可以将 xml 输出重新组合回 *.doc 文件,因此一旦找到根本原因,您就必须使用 Word 进行编辑。因此,转换为 *.docx 会更容易,检查 *.docx 文件,然后在必要时转换回 *.doc

或者您也可以将文件另存为文本文件这是一个“人类可读”的文本文件,而不是 Office XML。或者将 word 文件保存为 html

相关内容