我需要一些工具或解决方法来从 PDF 中提取突出显示的区域。我正在处理扫描的 PDF,因此没有文本识别,我还需要提取突出显示的图像。
我尝试了 Zotelo、Mendeley,并从 printpdf(ctrl+p)对话框中选择打印摘要,但它们只适用于突出显示的文本。
答案1
由于您使用的是扫描的 PDF,因此 PDF 本身包含压缩的图像数据。它不包含文本。因此,您的解决方案需要:
- 将 pdf 中的图像提取为图像格式
- 可以使用专用的 OCR 工具解析文本
从您的问题来看,我们无法确定您使用的是哪种操作系统和工具,也无法确定您的脚本编写能力。因此,这里给出一个通用答案,如果您需要多次重复此过程,则此过程是相当自动化的(取决于 pdf 中的变化)。
如果你手动操作,第一步可能很简单,只需截屏并裁剪即可。另一种方法是使用工具将 pdf 文档转换为图像文件.然后你可以根据自己的需要进行裁剪,例如瘸子。