如何将 HTML 转换为 LaTeX?

如何将 HTML 转换为 LaTeX?

我想要一种在 Windows 平台上将文档从 HTML 转换为 LaTeX 的方法。

我的主要动机是寻找展示书籍的方法古腾堡计划。 例如,韦尔斯隐形人

我最好的选择是什么?

答案1

最佳选择在很大程度上取决于您的需求。您只是想要导入结构,还是确切的外观,还是其他什么?最终文档是否正确完成有多重要?

无论如何,这里有许多事情可以尝试。

艾比词:一款开源文字处理器,可以导入 HTML 或类似格式并导出 LaTeX。(安装时请务必安装额外的导出插件;默认安装不包括 LaTeX 导出,但可以轻松选择。)

Writer2LaTeX:用于导出到 LaTeX 的 openoffice 插件;Open office 当然支持 HTML 导入(尽管 W2L 即使没有安装 Open Office 也可以处理 .odt 到 .tex;但将 .html 转换为 .odt 可能会更棘手。)

rtf2latex2e:顾名思义,将 RTF 转换为 LaTeX;因此您需要某种方法将 HTML 转换为 RTF(尽管这相对容易,可以用大多数文字处理器来完成)。

潘多克:用于在各种标记语言(包括 HTML 和 LaTeX)之间进行转换的 Haskell 程序

html2latex:用于此类转换的 Perl 脚本(我从未尝试过,但计划很快尝试)

htmltolatex类似的 Java 程序(同样,我还没有尝试过。)

然而,即使有这么多选择,就我个人而言,如果这是我真正想要做的事情,关心至于如何正确操作,我仍会选择直接传输纯文本并手动重做所有操作。以上只是针对相对不太重要的文档的快速修复,或者当除了 HTML 之外还以 LaTeX 格式保存文档只是为了方便时。

答案2

如果文档是 XHTML(而非 HTML),则可以直接在 ConTeXt 中处理。请参阅http://dl.contextgarden.net/myway/tas/xhtml.pdf观看教程和http://dl.contextgarden.net/myway/tas/用于示例文件。

答案3

简短回答:

pandoc  --standalone index.html --output index.tex

我对结果并不满意,但这是一个开始。

(抱歉,我知道这不是一个适合 Windows 的结果,但这个问题在 Google 搜索结果中也排名靠前,适合更通用的搜索)

答案4

这就是为什么古腾堡计划从一开始就应该使用合理的标记。幸运的是,现在一切都得到了标记,因此人们可以使用:

转换为文本编码倡议(TEI),然后使用 Dima 的答案:如何有效地将 TEI 文档转换为 LaTeX?

相关内容