我安装了 gocr,使用 ubuntu 终端建议的命令(sudo apt install gocr),以便对 pdf 文件中的文本进行 OCR 识别。我该如何使用它?我没有找到有关如何执行此操作的教程。
答案1
在较新的 Ubuntu 版本中,它被替换为tesseract-ocr:https://wiki.ubuntuusers.de/tesseract-ocr/
为了使用 GUI 进行简单的操作,我建议使用图像读取器: https://github.com/manisandro/gImageReader/releases
安装:
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng