依赖 Pandoc 处理最新版本 Word 中 .docx 格式提交的 LaTeX (XeTeX) 发布工作流程有多可靠?我可以预见,Word 的公式编辑器会生成包含大量数学、公式和符号的提交。在大多数情况下,Pandoc 能否可靠地将它们转换为 LaTeX/XeTeX?Pandoc 通常会在哪些特定类型的案例或表达式上失败?
(Pandoc 文档中提供的带有一个公式的数学示例可以通过 Pandoc 很好地从 .docx 转换为 LaTeX。因此,它可以在最小的工作示例上运行。但我想知道 Word 公式编辑器的全部输出范围,而我没有最大可能不起作用的示例!)
答案1
根据我的经验,只要文档使用新的(现在是标准的)公式编辑器,而不是旧的公式 3.0(或任何名称),docx 格式仍然支持该公式,那么 docx 到 LaTeX 的数学转换效果很好。
一个问题来自 utf-8 符号,例如希腊字母,它们有时会以原始形式出现在转换后的文档中,而不是 latex 中的对应形式。这可以通过可以处理这些符号的替换脚本轻松解决。
其他问题则来自复杂的格式,例如标题、脚注等。我猜所有这些转换都实现得很好,然而,在真正的 Word 文档中,作者经常不一致地甚至错误地使用格式。例如,在 Word 中,一些低级标题可以“等效”为粗体(“等效”是指输出看起来相同)。 当转换为乳胶时,此文本将被替换,例如\subsubsection
,这显然不是我们的本意。
除此之外,旧版本的 Word 包含一些内部“标签”,新版本仍支持这些标签,但是,当 pandoc 遇到这些标签时,它们会被完全删除。根据我的经验,一些单位转换标签就是这样,这些标签允许自动将文档从公制转换为英制单位等。虽然这看起来不太可能发生,但请注意,Word 2007 会自动包含这些标签,而无需作者知情。
总结: Pandoc 是一款很棒的工具(我认为是免费软件中最好的),但是转换后可能需要大量手动工作。此外,校对也是必要的。
笔记: 这是我的个人经验,我不是 pandoc 专家。也许其中一些问题可以通过适当的配置来解决。