首先,如果之前有人问过这个问题,我深表歉意 - 我在现有帖子中搜索了一段时间,但找不到支持。
我对 Fedora 的解决方案感兴趣,该解决方案用于 OCR 多页不可搜索的 PDF 并将该 PDF 转换为包含图像顶部文本层的新 PDF 文件。在 Mac OSX 或 Windows 上,我们可以使用 Adobe Acrobat,但是在 Linux(特别是 Fedora)上有解决方案吗?
这似乎描述了一个解决方案 - 但不幸的是,在检索精确图像时我已经迷失了。
答案1
ocrmypdf
做得很好,可以这样使用:
ocrmypdf in.pdf out.pdf
安装:
pip install ocrmypdf
或者
sudo apt install ocrmypdf # ubuntu
sudo dnf -y install ocrmypdf # fedora
答案2
得知后超立方体现在还可以生成可搜索的 PDF,我找到了脚本三明治:http://www.tobias-elze.de/pdfsandwich/
安装依赖项后(这可能不是完整列表)
sudo dnf install svn ocaml unpaper tesseract
我按照脚本指南从源代码进行编译
从源代码编译
pdfsandwich 是开源软件(许可证:GPL)。您可以从项目网站的下载区域下载 .tar.bz2 包的源代码,或者通过 subversion 查看它们:
svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich
如果您的系统上安装了OCaml,则可以按如下方式编译和安装:
cd pdfsandwich
./configure
make
sudo make install
现在我可以运行
sandwich multipaged-non-searchable.pdf
生成可搜索的 PDF。
这里是包含 pdfsandwich 的存储库(例如 Debian Stable、AUR、Homebrew)列表。
答案3
Ubuntu 中提供的一个简单工具是“ocrfeeder”,它允许生成 PDF,并将 OCR 文本覆盖在原始文档上。它使用 Tesseract 和其他 OCR 引擎(不确定是哪一个),并提供图像旋转/“unpaper”等。
答案4
我也遇到了同样的问题,所以我周末写了这篇文章。试一试;效果很好!它是一个简单的包装tesseract
。它用于pdftoppm
将 PDF 转换为一堆 TIFF 文件,然后tesseract
对它们执行 OCR(光学字符识别)并生成可搜索的 PDF 作为输出。脚本完成后,所有中间临时文件都会自动删除。
源代码:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
安装和使用说明pdf2searchablepdf
:
测试于乌班图18.042019 年 11 月 11 日及之后乌班图20.042020 年 11 月。
安装:
git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh
sudo apt update
sudo apt install tesseract-ocr
使用:
# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]
# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf
# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs
您现在将拥有一个名为mypdf_searchable.pdf,其中包含可搜索的文本!
完毕。它没有 python 依赖项,因为它目前完全用 bash 编写。
请参阅pdf2searchablepdf -h
参考资料 帮助菜单以及更多选项和示例。
参考资料或相关资源:
- PDF2可搜索PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
- https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
- https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
- https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
- pdf三明治:我刚刚发现的替代软件包装器,也值得一试!http://www.tobias-elze.de/pdfsandwich/