如何从扫描的文件中提取内容?

如何从扫描的文件中提取内容?

我以前使用过 Preview 和 Automator 从 PDF 文档中提取文本,但它们对扫描文件不起作用。如何从扫描文件中提取内容并保留格式?我不想为 Adob​​e 付费。

答案1

正如前面所说,您扫描的文档是(文本的)图像。为了理解文本,您需要对文档运行 OCR(光学字符识别)。

有几种适用于 Mac 的 OCR 产品,您的扫描仪可能附带此类产品。但是,通过要求格式化,您需要一些相当复杂的功能,而这些功能在基本产品中是不可用的。因此,您可能不得不为该 OCR 软件付费。从这个角度来看,您可能会重新考虑 Acrobat。

答案2

你说的“扫描”,我想你的意思是文档只包含图片文本,而不是文本字符。在这种情况下,请使用光学字符识别 (OCR) 软件。

对于 Windows 操作系统,有免费OCRa9t9 和其他。还有适用于Android、Linux和Mac的软件,并且还有基于浏览器的在线服务。

相关内容