从旧纸质文档到现代 LaTeX 版本

从旧纸质文档到现代 LaTeX 版本

我或多或少正在将旧的(比如说 70 年代的)纸质文档转换为现代的 LaTeX 版本。我正在做的事情如下:

  1. 从头编写整个 Latex 源代码(非常冗长且效率低下)
  2. 扫描文档,使用 OCR 工具并将后续txt文件转换为tex文件

我也想用语音识别软件来加快速度。你们中有人也遇到过同样的情况吗?你们有什么建议可以加快整个过程?最终目标是在开放的档案中共享 PDF 文档和相关的 LaTeX 源代码,让这些“即将消亡”的有趣文档复活。

编辑1:还需要对图形和图表进行处理。据我所知,几乎不可能自动完成这项任务。因此,我目前正在使用 Inkscape、TikZ 或 pstricks 重新绘制所有内容。

编辑2Tesseract-ocr愿意帮忙,但优先级不高。无论如何,看起来 Tesseract 是可以训练的。

答案1

我有以下工作流程:

  1. 将页面扫描成一系列 tiff 图像。
  2. 处理它们扫描裁缝用于固定方向、分割页面和获取黑白图像
  3. 使用 tiffcp 命令将生成的图像合并到多页 tiff 中

然后我使用 finereader,因为结果必须是 RTF 格式。

但是,像楔形文字或者宇宙魔方最近取得了良好的效果,他们可以将文本导出霍奇金淋巴瘤格式。HOCR 实际上是包含段落、分页符和换行符以及页面其他元素信息的 HTML。应该可以编写一些脚本来将此格式转换为 LaTeX。

插图是另一个问题,你可以用波特雷斯或 autotrace。您可以使用 potrace墨景。结果对于插图来说很好,但我不知道它们是否可用于图表或图形。

相关内容