我有一个扫描的 PDF 文件,但该文件不可搜索,也不可选择文本。请告诉我如何将这种 PDF 转换为支持文本且可搜索的 PDF。我对 gsview 比较熟悉,并且我的电脑上安装了 ghostscript,如果这些程序能帮到你的话。
答案1
上述任何一项都无法独自实现。
扫描是图像。将文本图片转换为实际文本需要的是光学字符识别 (OCR)。Ghostscript 支持使用 Tesseract 进行 OCR。还有许多 OCR 应用程序,有免费的也有付费的。一款利用 Tesseract 的免费软件是OCR我的PDF,可从下载Github。
搜索“最佳 OCR 应用程序”等内容即可找到测试和建议。
也有一些网站可以做到这一点,但我见过的网站要么内容有限(例如不付费只能提供 3 页),要么质量很差。