如何区分 XML 文件和 PDF 的内容?

如何区分 XML 文件和 PDF 的内容?

在工作中,编辑们用 XML 创建书籍,然后将其导入 Indesign,并存档为最终印刷版的 PDF。在校样和布局期间,会直接对 InDesign 和最终 PDF 进行额外编辑,这意味着 XML 与最终内容不同步。

您将如何比较 XML 及其对应的最终 InDesign 或 PDF 文件的内容,以便识别所做的任何更改并更新 XML?我尝试采用的方法是

  1. 从 PDF \ InDesign 中提取文本
  2. 使用脚本转换 XML
  3. 使用 diff 工具来发现两者之间的差异

第 2 步和第 3 步似乎合理,但由于多列布局和繁重的设计导致“另存为文本”不是一种选择,因此从 PDF 中提取文本很棘手。

有没有更好的方法可以做到这一点?使用 InDesign 文件比使用 PDF 更容易吗?有没有一个聪明的工具可以让一切变得更简单?

相关内容