我可以使用 evince 文档查看器查看带有文本的 pdf 图像,但是我无法选择图像中的文本进行复制和粘贴。如何从 pdf 文件中的图像复制文本?
答案1
你需要OCR (Optical Character Recognition)
能够从图像中提取文本。如果你Google OCR
你会在网上找到很多OCR software
尝试从图像中提取文本。我个人从来没有使用过如此难于说它们有多成功的产品。您会注意到,其中一些将图像文件作为输入,在这种情况下,您必须将其转换PDF
为图像格式(也可以在线获取相关工具)。
如果您更倾向于技术,这里有一个Python
图书馆pytesser
这可能会有所帮助。
Capture2Text
是一个开源工具,它对 a 执行 OCRscreenshot
并将结果输出到剪贴板,因此感觉就像是从图像中复制文本。这可能是您最好的选择。
答案2
除非你能像 Harvinder 所建议的那样让某种 OCR 发挥作用,否则你就不走运了。如果它是 PDF 中的图像,则与 JPEG 或 PNG 或任何其他图像中的图像没有什么不同。
即使您找到适合您的 OCR 软件包,您也可能会得到非常差的结果。我花在编辑 OCR PDF 上的时间比重新输入文本还要多。