从旧纸质文档到现代 LaTeX 版本

Question

我有以下工作流程：

然后我使用 finereader，因为结果必须是 RTF 格式。

但是，像楔形文字或者宇宙魔方最近取得了良好的效果，他们可以将文本导出霍奇金淋巴瘤格式。HOCR 实际上是包含段落、分页符和换行符以及页面其他元素信息的 HTML。应该可以编写一些脚本来将此格式转换为 LaTeX。

插图是另一个问题，你可以用波特雷斯或 autotrace。您可以使用 potrace墨景。结果对于插图来说很好，但我不知道它们是否可用于图表或图形。

Answer 1

我有以下工作流程：

然后我使用 finereader，因为结果必须是 RTF 格式。

但是，像楔形文字或者宇宙魔方最近取得了良好的效果，他们可以将文本导出霍奇金淋巴瘤格式。HOCR 实际上是包含段落、分页符和换行符以及页面其他元素信息的 HTML。应该可以编写一些脚本来将此格式转换为 LaTeX。

插图是另一个问题，你可以用波特雷斯或 autotrace。您可以使用 potrace墨景。结果对于插图来说很好，但我不知道它们是否可用于图表或图形。

相关内容