如何在终端中使用楔形文字从基于图像的 PDF 中提取文本

2024-6-18 • tag-icon

楔形文字 -l eng -f text -o outocr.txt 输入.pdf

上述命令在终端中运行时，仅将我的 PDF 标题页的文本输出到 outocr.txt 文件。我应该怎么做才能让它识别 120 页 PDF 中的所有文本？我使用的是 Fedora Linux 25 (x86_64)。

这篇文章提供了一个示例脚本，用于读取多个单独的页面并创建多页 PDF。楔形文字本身不会创建多页文档。如何在 Linux 上使用 OCR 从 PDF 中提取文本？

相关内容