如何使用 ghostscript 和 gsview 使扫描的 PDF 文本可选

如何使用 ghostscript 和 gsview 使扫描的 PDF 文本可选

我有一个扫描的 PDF 文件,但该文件不可搜索,也不可选择文本。请告诉我如何将这种 PDF 转换为支持文本且可搜索的 PDF。我对 gsview 比较熟悉,并且我的电脑上安装了 ghostscript,如果这些程序能帮到你的话。

答案1

上述任何一项都无法独自实现。

扫描是图像。将文本图片转换为实际文本需要的是光学字符识别 (OCR)Ghostscript 支持使用 Tesseract 进行 OCR。还有许多 OCR 应用程序,有免费的也有付费的。一款利用 Tesseract 的免费软件是OCR我的PDF,可从下载Github

搜索“最佳 OCR 应用程序”等内容即可找到测试和建议。

也有一些网站可以做到这一点,但我见过的网站要么内容有限(例如不付费只能提供 3 页),要么质量很差。

相关内容