如何 OCR PDF 文件并获取 PDF 中存储的文本？

Question 1

ocrmypdf做得很好，可以这样使用：

ocrmypdf in.pdf out.pdf

安装：

pip install ocrmypdf

或者

sudo apt install ocrmypdf     # ubuntu
sudo dnf -y install ocrmypdf  # fedora

Answer

ocrmypdf做得很好，可以这样使用：

ocrmypdf in.pdf out.pdf

安装：

pip install ocrmypdf

或者

sudo apt install ocrmypdf     # ubuntu
sudo dnf -y install ocrmypdf  # fedora

Question 2

得知后超立方体现在还可以生成可搜索的 PDF，我找到了脚本三明治：http://www.tobias-elze.de/pdfsandwich/

安装依赖项后（这可能不是完整列表）

sudo dnf install svn ocaml unpaper tesseract

我按照脚本指南从源代码进行编译

从源代码编译

pdfsandwich 是开源软件（许可证：GPL）。您可以从项目网站的下载区域下载 .tar.bz2 包的源代码，或者通过 subversion 查看它们：

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

如果您的系统上安装了OCaml，则可以按如下方式编译和安装：

cd pdfsandwich
./configure
make
sudo make install

现在我可以运行

sandwich multipaged-non-searchable.pdf

生成可搜索的 PDF。

这里是包含 pdfsandwich 的存储库（例如 Debian Stable、AUR、Homebrew）列表。

Answer

得知后超立方体现在还可以生成可搜索的 PDF，我找到了脚本三明治：http://www.tobias-elze.de/pdfsandwich/

安装依赖项后（这可能不是完整列表）

sudo dnf install svn ocaml unpaper tesseract

我按照脚本指南从源代码进行编译

从源代码编译

pdfsandwich 是开源软件（许可证：GPL）。您可以从项目网站的下载区域下载 .tar.bz2 包的源代码，或者通过 subversion 查看它们：

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

如果您的系统上安装了OCaml，则可以按如下方式编译和安装：

cd pdfsandwich
./configure
make
sudo make install

现在我可以运行

sandwich multipaged-non-searchable.pdf

生成可搜索的 PDF。

这里是包含 pdfsandwich 的存储库（例如 Debian Stable、AUR、Homebrew）列表。

Question 3

Ubuntu 中提供的一个简单工具是“ocrfeeder”，它允许生成 PDF，并将 OCR 文本覆盖在原始文档上。它使用 Tesseract 和其他 OCR 引擎（不确定是哪一个），并提供图像旋转/“unpaper”等。

Answer

Ubuntu 中提供的一个简单工具是“ocrfeeder”，它允许生成 PDF，并将 OCR 文本覆盖在原始文档上。它使用 Tesseract 和其他 OCR 引擎（不确定是哪一个），并提供图像旋转/“unpaper”等。

Question 4

我也遇到了同样的问题，所以我周末写了这篇文章。试一试;效果很好！它是一个简单的包装tesseract。它用于pdftoppm将 PDF 转换为一堆 TIFF 文件，然后tesseract对它们执行 OCR（光学字符识别）并生成可搜索的 PDF 作为输出。脚本完成后，所有中间临时文件都会自动删除。

源代码：https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF

安装和使用说明`pdf2searchablepdf`：

测试于乌班图18.042019 年 11 月 11 日及之后乌班图20.042020 年 11 月。

安装：

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

使用：

# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]

# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf

# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs

您现在将拥有一个名为mypdf_searchable.pdf，其中包含可搜索的文本！

完毕。它没有 python 依赖项，因为它目前完全用 bash 编写。

请参阅pdf2searchablepdf -h参考资料帮助菜单以及更多选项和示例。

参考资料或相关资源：

PDF2可搜索PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
pdf三明治：我刚刚发现的替代软件包装器，也值得一试！http://www.tobias-elze.de/pdfsandwich/

Answer

我也遇到了同样的问题，所以我周末写了这篇文章。试一试;效果很好！它是一个简单的包装tesseract。它用于pdftoppm将 PDF 转换为一堆 TIFF 文件，然后tesseract对它们执行 OCR（光学字符识别）并生成可搜索的 PDF 作为输出。脚本完成后，所有中间临时文件都会自动删除。

源代码：https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF

安装和使用说明`pdf2searchablepdf`：

测试于乌班图18.042019 年 11 月 11 日及之后乌班图20.042020 年 11 月。

安装：

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

使用：

# General:
pdf2searchablepdf [options] <input.pdf|dir_of_imgs> [lang]

# Make a PDF searchable:
pdf2searchablepdf mypdf.pdf

# Make an entire directory of images into a single searchable PDF:
pdf2searchablepdf directory_of_imgs

您现在将拥有一个名为mypdf_searchable.pdf，其中包含可搜索的文本！

完毕。它没有 python 依赖项，因为它目前完全用 bash 编写。

请参阅pdf2searchablepdf -h参考资料帮助菜单以及更多选项和示例。

参考资料或相关资源：

PDF2可搜索PDF:https://github.com/ElectricRCAaircraftGuy/PDF2SearchablePDF
https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
pdf三明治：我刚刚发现的替代软件包装器，也值得一试！http://www.tobias-elze.de/pdfsandwich/

如何 OCR PDF 文件并获取 PDF 中存储的文本？

答案1

答案2

答案3

答案4

安装和使用说明`pdf2searchablepdf`：

安装：

使用：

参考资料或相关资源：

相关内容

答案1

答案2

答案3

答案4

安装和使用说明pdf2searchablepdf：

安装：

使用：

参考资料或相关资源：

相关内容

安装和使用说明`pdf2searchablepdf`：