OCR PDF /图像到LaTeX(数学)

OCR PDF /图像到LaTeX(数学)

我很想有一个 OCR 可以将我的 PDF 文件转换为 TeX 文件。它不必“好看”。

我只需要它来 a) 不时复制一些文本和 b) 特别是复制数学(也许还有表格)。

有什么建议吗?我试过 Abiword(效果不如我所希望的那样好)。数学对我来说尤其重要。它应该可以在线或在 Linux 上运行。

提前非常感谢您!

答案1

当我需要在 Linux 上对 PDF 进行 OCR 处理时,我会使用 tesseract 中的 pdfocr 程序

我使用 ppa:gezakovacs/pdfocr 存储库来获取 pdfocr 和

sudo apt-get update
sudo apt-get install pdfocr

   sudo apt-get install tesseract-ocr 
   sudo apt-get install tesseract-ocr-eng  

转换命令是

pdfocr -i input.pdf -o output.pdf 

此外,在转换之前我必须做

export TESSDATA_PREFIX="/usr/share/tesseract-ocr/"

为了告诉 tesseract 语言文件在哪里。

转换后,您可以从 output.pdf 本身复制文本,然后从那里复制到您的 LaTeX 文件中。

Tesseract 确实有一个数学识别语言文件,它是上市 作为语言包之一:equ(数学/方程式检测模块)

libreoffice 方法的作用有限,因为它将 pdf 转换为 libreoffice 图形文件 (.odg),这会阻止您复制大块文本,因为文本被 ocr 为短图形块,而不是整体。因此,如果需要复制,则需要逐句复制,如果复制的句子超过几个,则非常繁琐。

我一直在寻找 pdf 到 TeX 的转换器,但到目前为止还没有找到。

答案2

您可以使用 LibreOffice Draw,方法是将 pdf 文件导入其中。Draw 与 pdf 配合得很好。但为了稳定,请使用此版本

对于数学,如果您对使用 LaTeX 重写它不感兴趣,您也可以使用 LibreOffice,但使用“数学”组件,然后将其作为图片包含到您的 TeX 文档中。

相关内容