Pandoc 与 LaTeXML 进行 LaTeX 转换

Pandoc 与 LaTeXML 进行 LaTeX 转换

为什么我们使用 LaTeXML 进行转换而不是 pandoc?

我看到 ar5ix 使用 LaTeXML 而不是 pandoc,后者似乎更广为人知。我认为这是因为 LaTeXML 渲染 latex 效果更好。但是,pandoc 似乎维护得很好 - 在这种情况下,他们不会直接复制 LaTeXML 中的 AST 转换器吗?

答案1

注意:我是 ar5iv 的创建者和 LaTeXML 的开发人员,因此我的回答将从这个角度出发。

您的问题涉及几个重点。

  • 是的,pandoc 维护良好,并且拥有庞大的贡献者社区。话虽如此,LaTeXML 也拥有非常稳定的全职维护,这要归功于美国国家标准与技术研究院 (NIST) 及其 DLMF 项目。我们还有一个规模较小但同样热情的外部贡献者团队。

  • 另外,LaTeXML 一直是 KWARC 研究小组的长期合作伙伴,该小组自 2006 年开始就一直在逐步致力于转换 arXiv 的文章。在此过程中,我们创建了自己的转换仪表板并努力为影响最大的软件包提供支持。这使我们开发出了 ar5iv,并使我们成功转换为 HTML 的比率接近 80%。

  • 恐怕没有 LaTeX AST。这是试图找到 HTML 映射的一大困难(和不一致之处)。是的,有人可能会说 可能\section意味着 HTML <section>,但一旦我们开始讨论诸如\refstepcounter和自定义宏和环境之类的构造,就会变得不那么清晰。选择保留哪些部分 - 以及在哪个抽象级别 - 成为一个开放式问题,有各种同样合理的答案。

因此,如何在“latexml”和“pandoc”之间做出选择的根本在于考虑这些工具的重点是什么 - 并可能在具体文档上比较它们的输出。

如果您计划将您的文章提交给 arXiv,确保它能够与 LaTeXML 很好地转换可能会带来额外的好处,这样 ar5iv(以及最终的 arXiv 本身)将提供高质量的 HTML 版本。

如果您正在使用自己的自定义工具链,和/或更喜欢使用模板,和/或需要 LaTeXML 不支持的输出格式,那么 pandoc 可能更适合。

最后但并非最不重要的一点是,这些并不是您唯一的选择 - 有超过 10 种不同的工具,使用 8 种以上的编程语言,专门用于将 LaTeX 转换为 HTML。如果您感兴趣的话,我在 ar5iv 演讲的幻灯片中对它们进行了简要概述:ar5iv 演讲,幻灯片 19

答案2

我是 academ.us 的创建者,它提供与 ar5iv 类似的 latex-to-html 功能。它的内部构建于 Pandoc 之上,所以是的,你的问题的答案绝对是可能的。下面是一个例子。https://academ.us/article/2212.09748/

Pandoc 有其自身的缺陷,因为它对解析错误的容忍度较低(这在 arxiv 源中很常见)。

回复 olivarb:转换为 markdown 比较棘手,因为很快你就需要面对图形、表格和引用,此时不同的方言会有不同的符号(即使 pandoc 2 和 3 也有不同的约定),并且由于 markdown 的内在限制,它们都缺乏原始 latex 的一些表现力。

相关内容