我或多或少正在将旧的(比如说 70 年代的)纸质文档转换为现代的 LaTeX 版本。我正在做的事情如下:
- 从头编写整个 Latex 源代码(非常冗长且效率低下)
- 扫描文档,使用 OCR 工具并将后续
txt
文件转换为tex
文件
我也想用语音识别软件来加快速度。你们中有人也遇到过同样的情况吗?你们有什么建议可以加快整个过程?最终目标是在开放的档案中共享 PDF 文档和相关的 LaTeX 源代码,让这些“即将消亡”的有趣文档复活。
编辑1:还需要对图形和图表进行处理。据我所知,几乎不可能自动完成这项任务。因此,我目前正在使用 Inkscape、TikZ 或 pstricks 重新绘制所有内容。
编辑2:Tesseract-ocr愿意帮忙,但优先级不高。无论如何,看起来 Tesseract 是可以训练的。