如何对 PDF 文档进行 OCR?

如何对 PDF 文档进行 OCR?

可能重复:
如何在 Linux 上使用 OCR 从 PDF 中提取文本?

我有一些英文和希伯来语的文件,我将它们扫描并转换为 PDF 格式。

是否有一些免费或便宜的实用程序可以处理扫描的 PDF 并进行 OCR,至少是英语,最好也包括希伯来语?

谢谢!

答案1

我发现一个列表适用于 Windows 的免费 OCR 软件。

  1. 免费OCR
  2. 立方体
  3. WeOcr Tesseract Web 界面
  4. 哥斯达黎加
  5. GOCR 的 Windows GUI
  6. OCR桌面
  7. 简单 OCR
  8. 顶级OCR

但是,这些程序需要图像输入,而不是 PDF 输入。为此,请尝试PDF 转 JPG 转换器

答案2

我发现了一个有趣的想法这使得 Google 可以为您完成 PDF 文件的所有 OCR 工作。

答案3

就我个人而言,我会使用幽灵景观将它们转换为图像,然后立方体将它们转换为文本。这是一个完全免费、开源、跨平台的解决方案,我在尝试转换纯文本时取得了非常好的效果。我不会将它用于包含表格等的复杂文档,但对于纯文本,它的价格无与伦比。

相关内容