为什么要在编译为 PDF 之前将 TeX 转换为 XML？

Question

好吧，也许它只适用于 LaTeX。也许他们也接受基于 Microsoft Word 的提交。在这种情况下，将所有内容转换为通用格式会有些道理。我不是 Word 专家，但据我所知，它已经可以生成某种基于 XML 的输出。也许他们使用一些 XSLT 将其转换为某种中间格式。LaTeX 可以转换为相同的格式，也许以与 @user24582 建议的方式相同。

然后，您可以使用标准化方法将 XML 格式转换为 pdf，同样可能采用 @user24582 建议的方法。优点是可以获得 Word 和 LaTeX 文件相同类型的输出。

此外，我们不知道该期刊的历史。也许他们过去只接受 Word 文档或 LaTeX 文档。如果他们已经有某种涉及 XML 格式的工具链，那么通过添加从这种特定格式到 XML 表示的转换器来添加新的输入格式将是合乎逻辑的步骤。当然，这也适用于未来的格式。比如说，也许他们希望将来能够接受不同格式的论文，无论是 Open Office 还是其他格式。

XML 的另一个原因可能是可能存在计算文档统计数据和/或执行拼写检查的工具。制定适用于不同格式（如 Word 和 LaTeX）的统一拼写检查方法可能很复杂。

沿着这条路，我们还可以考虑 LaTeX 处理非英语字符的方式（或者至少过去是这样）。例如，我说的是ä。\"a这可能会给拼写检查带来问题。拥有一个可以将所有这些翻译成漂亮的 unicode 的系统可能会有所帮助。

另一个原因可能是可读性。采用 XML 格式可能会大大减少可能发生的情况。只要看看这个用户组，就会发现这里的人所做的所有怪事和奇怪的事情。LaTeX 代码可能会变得非常复杂，难以阅读。如果您是一本期刊，并且想要外包或简化您的文档处理，那么采用定义明确的 XML 格式（以更像 HTML 而不是程序（如 LaTeX）的方式定义文档）可能是一个好主意。我认为能够阅读 HTML 的人的数量远远高于能够阅读 LaTeX 的人的数量。即使在能够阅读 LaTeX 和 HTML 的人中，我认为绝大多数人可以更快地阅读 HTML 文档，这仅仅是因为您可以在 LaTeX 中执行奇怪的操作，以及一些机制，例如浮动对象。因此，您可能能够以更便宜的价格获得更高级的校对员或其他人员，因为他们只需要知道更少的信息和/或能够更快地处理文档。另外，再说一次，文档最初是 LaTeX 文档还是 Word 文档不再重要。

另一个问题可能是文档的长期存储。如果您为期刊明确定义了 XML 格式，并有版本控制的排版代码，那么您会感觉更加独立。市面上有非常多的 LaTeX 软件包，它们可能会随着时间的推移而发生变化。如果您长期存储使用多个软件包的 LaTeX 文档，您可能会担心 10 年后是否还能编译它们。或者，至少，追踪所需软件的所有版本可能会更加困难。当文档进入时，您可以这样做一次，将其转换为简单的 XML 格式，然后只希望您的格式记录得足够好，并且您的排版软件维护得足够好，以便在将来仍能正常工作。

再次强调，如果您想提取信息，您可以更轻松地处理 XML 文档。您可以使用 XSLT 和 XPATH 等来提取作者姓名、参考文献、图像标题、章节等。（不过，您也可以使用 LaTeX 来做到这一点，但我认为它可能更复杂。）

以上就是我想到的一些原因。我并不想声称这些原因都是合理的，甚至是好的，但至少我可以想象，有人可能会说，XML 在文档制作过程中是很好的。

Answer 1