为什么要在编译为 PDF 之前将 TeX 转换为 XML?

为什么要在编译为 PDF 之前将 TeX 转换为 XML?

当我收到我最新提交的论文的证明时,我在证明中发现了以下解释性文字:

请注意,作为制作过程的一部分,[期刊] 将所有文章(无论其原始来源如何)转换为标准化 XML,然后用于创建文章的 PDF 和在线版本以及填充第三方系统(例如 Portico、CrossRef 和 Web of Science)。我们与作者一样,对转换为 XML 的保真度以及最终格式化 PDF 的准确性和外观抱有很高的期望。此过程对绝大多数文章都非常有效;但是,请仔细检查 PDF 校样的所有关键元素,尤其是任何公式或表格。

我对此有几个疑问:

  • 有人能解释一下为什么要进行这种转换吗?
  • 什么系统(可能)用于从 TeX 生成 XML?
  • 什么系统(可能)用于从 XML 生成 PDF?
  • 作为最终用户,我是否可以将这样的转换纳入我的工作流程中?这会对我有帮助吗?

答案1

好吧,也许它只适用于 LaTeX。也许他们也接受基于 Microsoft Word 的提交。在这种情况下,将所有内容转换为通用格式会有些道理。我不是 Word 专家,但据我所知,它已经可以生成某种基于 XML 的输出。也许他们使用一些 XSLT 将其转换为某种中间格式。LaTeX 可以转换为相同的格式,也许以与 @user24582 建议的方式相同。

然后,您可以使用标准化方法将 XML 格式转换为 pdf,同样可能采用 @user24582 建议的方法。优点是可以获得 Word 和 LaTeX 文件相同类型的输出。

此外,我们不知道该期刊的历史。也许他们过去只接受 Word 文档或 LaTeX 文档。如果他们已经有某种涉及 XML 格式的工具链,那么通过添加从这种特定格式到 XML 表示的转换器来添加新的输入格式将是合乎逻辑的步骤。当然,这也适用于未来的格式。比如说,也许他们希望将来能够接受不同格式的论文,无论是 Open Office 还是其他格式。

XML 的另一个原因可能是可能存在计算文档统计数据和/或执行拼写检查的工具。制定适用于不同格式(如 Word 和 LaTeX)的统一拼写检查方法可能很复杂。

沿着这条路,我们还可以考虑 LaTeX 处理非英语字符的方式(或者至少过去是这样)。例如,我说的是ä\"a这可能会给拼写检查带来问题。拥有一个可以将所有这些翻译成漂亮的 unicode 的系统可能会有所帮助。

另一个原因可能是可读性。采用 XML 格式可能会大大减少可能发生的情况。只要看看这个用户组,就会发现这里的人所做的所有怪事和奇怪的事情。LaTeX 代码可能会变得非常复杂,难以阅读。如果您是一本期刊,并且想要外包或简化您的文档处理,那么采用定义明确的 XML 格式(以更像 HTML 而不是程序(如 LaTeX)的方式定义文档)可能是一个好主意。我认为能够阅读 HTML 的人的数量远远高于能够阅读 LaTeX 的人的数量。即使在能够阅读 LaTeX 和 HTML 的人中,我认为绝大多数人可以更快地阅读 HTML 文档,这仅仅是因为您可以在 LaTeX 中执行奇怪的操作,以及一些机制,例如浮动对象。因此,您可能能够以更便宜的价格获得更高级的校对员或其他人员,因为他们只需要知道更少的信息和/或能够更快地处理文档。另外,再说一次,文档最初是 LaTeX 文档还是 Word 文档不再重要。

另一个问题可能是文档的长期存储。如果您为期刊明确定义了 XML 格式,并有版本控制的排版代码,那么您会感觉更加独立。市面上有非常多的 LaTeX 软件包,它们可能会随着时间的推移而发生变化。如果您长期存储使用多个软件包的 LaTeX 文档,您可能会担心 10 年后是否还能编译它们。或者,至少,追踪所需软件的所有版本可能会更加困难。当文档进入时,您可以这样做一次,将其转换为简单的 XML 格式,然后只希望您的格式记录得足够好,并且您的排版软件维护得足够好,以便在将来仍能正常工作。

再次强调,如果您想提取信息,您可以更轻松地处理 XML 文档。您可以使用 XSLT 和 XPATH 等来提取作者姓名、参考文献、图像标题、章节等。(不过,您也可以使用 LaTeX 来做到这一点,但我认为它可能更复杂。)

以上就是我想到的一些原因。我并不想声称这些原因都是合理的,甚至是好的,但至少我可以想象,有人可能会说,XML 在文档制作过程中是很好的。

相关内容