什么程序适合使扫描的 PDF 文件可搜索?

什么程序适合使扫描的 PDF 文件可搜索?

我希望能够将纸质文档扫描为 PDF 文件并使文本可搜索。我相信 Tesseract 程序可以实现这一点,但不知道如何开始,也不知道哪个程序最好用。

有人成功制作出可搜索的 PDF 文件吗?

答案1

我可以推荐ocrmypdf,看看https://github.com/ocrmypdf/OCRmyPDF,也为 Ubuntu 打包了。你可以运行以下命令安装它:

sudo apt install ocrmypdf

您可以按如下方式使用它:

ocrmypdf -l eng infile.pdf outfile.pdf

上面的调用ocrmypdf很简单,它指定文档语言为英语(-l eng)。man;您可能希望随着时间的推移根据需要发现它们。

相关内容