使用分类注释提取 PDF 数据

使用分类注释提取 PDF 数据

是否有任何现有工具可以使用此方法从 PDF 文件中提取数据。假设我有 3 个类别

  1. 图像- 这将是一个矩形注释,它将裁剪注释所在的特定区域
  2. 标题- 这是另一个矩形注释,只会获取该矩形内的文本。如果是图像,它将通过 OCR 转换为文本。
  3. 作者- 与 #2 相同,但现在映射到作者

然后将生成一种文件格式,比如说 CSV:

ImageURL,Title,Author

这些类别(字段)也应该分组到记录中,因此每行有 1 条记录。

如果没有现有的工具可以做到这一点,什么工具或编程 API/SDK 可以帮助我构建一个?

相关内容