如何在终端中使用楔形文字从基于图像的 PDF 中提取文本

如何在终端中使用楔形文字从基于图像的 PDF 中提取文本

楔形文字 -l eng -f text -o outocr.txt 输入.pdf

上述命令在终端中运行时,仅将我的 PDF 标题页的文本输出到 outocr.txt 文件。我应该怎么做才能让它识别 120 页 PDF 中的所有文本?我使用的是 Fedora Linux 25 (x86_64)。

答案1

这篇文章提供了一个示例脚本,用于读取多个单独的页面并创建多页 PDF。楔形文字本身不会创建多页文档。 如何在 Linux 上使用 OCR 从 PDF 中提取文本?

相关内容