XML 生产环境中的 LaTeX

XML 生产环境中的 LaTeX

一家大型出版商最近要求我提供已接受的 pdf 格式的 MSWord 版本。当我提供 LaTeX 源代码时,他们拒绝了:“我们将使用 pdf 格式”。不过,他们很高兴收到图形文件。

我最近发表的其他论文由于将 LaTeX 转换为 XML 时出现错误而被推迟。

由于出版商需要 XML,而 MSWord 提交量居多,许多技术出版业已不再使用 LaTeX 源代码。因此,我有两个问题 (已编辑):

  1. 哪些“最佳实践”可以让作者使用 XML 优先模型简化向主要技术出版商提交 LaTeX 文件的流程?
  2. 是否有一些软件包或引擎可以让作者与 LaTeX 一起使用来生成 pdf 文件,并在发送生产时可靠地转换为 XML?

附录: 进一步查看,并在 michal.h21 的有用答案之后,我发现了几个关于将 LaTeX 直接转换为 XML 或 ePub 的线程(XML电子出版)我还发现了TUGBoat 文章有关海王星系统,供出版商管理 LaTeX 源文章的校对。

我的询问是朝着另一个方向的:“在向 XML 优先期刊提交 LaTeX 论文(源文件或 pdf 输出)时,哪些工具可以帮助作者减少生产延迟?”

答案1

我是TeX4ht,用于将 LaTeX 转换为 XML 的系统之一。开发正在进行中,从变更日志。它由用户请求驱动。我可以说,我们并没有收到很多来自发布商的请求,所以如果他们告诉你转换过程中的错误,他们可能认为没有必要告诉开发人员他们面临的问题。显然,没有错误报告就无法修复错误。

另一个问题是,XML 有很多不同的风格,TEI、Docbook、ODT、JATS 等。其中一些对文档结构有非常严格的要求。我可以说,调试 LaTeX 包、TeX4ht 和各种 XML 格式的验证要求之间的交互可能非常困难。研究各种规范太耗时了,而且这些规范通常不包含示例,因此通常很难理解它们。

例如,我最近尝试添加对 JATS 的基本支持,但它需要特定的文档结构,这与通常的 LaTeX 文档结构不符。需要使用 XML 转换工具进行一些后处理。幸运的是,我们在 TeX4ht 中内置了对此类转换的支持。但不幸的是,这不是一个容易的过程。在我完成它之前,我被 TeX4ht 和我的其他项目的错误报告和功能请求淹没了,所以在过去的几个月里我没有时间和精力在这个领域取得进展。

结论是:

  1. 最好的解决方案是使用以下方法将文档转换为 HTML5 或 ODT

    make4ht 文件名.tex

或者

make4ht -f odt filename.tex

其他格式的支持较差,仅仅是因为缺乏用户对它们的请求。

  1. 许多人都想转换文档,但真正使用工具的人却很少。问题是转换过程有点困难。

    在 TeX4ht 中,转换过程有几个独立的阶段 - 首先我们在 LaTeX 命令中注入一些代码。然后使用这些代码插入 XML 标签。我们修补 LaTeX 核心和数百个包。这是最难的事情,因为您必须了解您尝试修改的包的代码和 TeX4ht 机制。

    比较简单的部分是输出格式的配置,因为您不需要精通 TeX 编程。通常,您只需从 HTML 配置文件中复制特定命令或环境的配置,然后对其进行修改以使用正确的 XML 标签。

相关内容