我希望能够将纸质文档扫描为 PDF 文件并使文本可搜索。我相信 Tesseract 程序可以实现这一点,但不知道如何开始,也不知道哪个程序最好用。
有人成功制作出可搜索的 PDF 文件吗?
答案1
我可以推荐ocrmypdf
,看看https://github.com/ocrmypdf/OCRmyPDF,也为 Ubuntu 打包了。你可以运行以下命令安装它:
sudo apt install ocrmypdf
您可以按如下方式使用它:
ocrmypdf -l eng infile.pdf outfile.pdf
上面的调用ocrmypdf
很简单,它指定文档语言为英语(-l eng
)。man
页;您可能希望随着时间的推移根据需要发现它们。