如何从 pdf 文件中的图像复制文本?

如何从 pdf 文件中的图像复制文本?

我可以使用 evince 文档查看器查看带有文本的 pdf 图像,但是我无法选择图像中的文本进行复制和粘贴。如何从 pdf 文件中的图像复制文本?

答案1

你需要OCR (Optical Character Recognition)能够从图像中提取文本。如果你Google OCR你会在网上找到很多OCR software尝试从图像中提取文本。我个人从来没有使用过如此难于说它们有多成功的产品。您会注意到,其中一些将图像文件作为输入,在这种情况下,您必须将其转换PDF为图像格式(也可以在线获取相关工具)。

如果您更倾向于技术,这里有一个Python图书馆pytesser这可能会有所帮助。

Capture2Text是一个开源工具,它对 a 执行 OCRscreenshot并将结果输出到剪贴板,因此感觉就像是从图像中复制文本。这可能是您最好的选择。

答案2

除非你能像 Harvinder 所建议的那样让某种 OCR 发挥作用,否则你就不走运了。如果它是 PDF 中的图像,则与 JPEG 或 PNG 或任何其他图像中的图像没有什么不同。

即使您找到适合您的 OCR 软件包,您也可能会得到非常差的结果。我花在编辑 OCR PDF 上的时间比重新输入文本还要多。

相关内容