从 pdf 中提取突出显示的扫描文本/图像

从 pdf 中提取突出显示的扫描文本/图像

我需要一些工具或解决方法来从 PDF 中提取突出显示的区域。我正在处理扫描的 PDF,因此没有文本识别,我还需要提取突出显示的图像。

我尝试了 Zotelo、Mendeley,并从 printpdf(ctrl+p)对话框中选择打印摘要,但它们只适用于突出显示的文本。

答案1

由于您使用的是扫描的 PDF,因此 PDF 本身包含压缩的图像数据。它不包含文本。因此,您的解决方案需要:

  1. 将 pdf 中的图像提取为图像格式
  2. 可以使用专用的 OCR 工具解析文本

从您的问题来看,我们无法确定您使用的是哪种操作系统和工具,也无法确定您的脚本编写能力。因此,这里给出一个通用答案,如果您需要多次重复此过程,则此过程是相当自动化的(取决于 pdf 中的变化)。

如果你手动操作,第一步可能很简单,只需截屏并裁剪即可。另一种方法是使用工具将 pdf 文档转换为图像文件.然后你可以根据自己的需要进行裁剪,例如瘸子

对于第二步,你可以使用任何 OCR 软件例如立方体

相关内容