批量提取 PDF 文件的元数据和文本

批量提取 PDF 文件的元数据和文本

我有一组 PDF 文件,其中所有文件都包含文本。但是,其中一些文件不知何故创建不正确;可选择的文本不可搜索或转换为纯文本(生成的文本文件包含扩展的 ASCII 字符)。有些文件甚至出现了更隐蔽的故障,导出到 txt 后只能读取某些文本(例如标题)。此外,由于这些文件在技术上属于“文本”PDF,因此无法直接在它们上运行 OCR(出现错误,提示“此页面包含可渲染文本”。)我正在尝试查明发生这种情况的原因以及如何修复损坏的 PDF。

这是我想要对每个 pdf 文件进行批处理的操作:

  1. 提取“PDF 制作器”元数据标签

  2. 将 PDF 转换为文本

  3. 将 PDF 转换为 TIFF

  4. 对生成的 TIFF 运行 OCR 并将其导出为 txt

  5. 对 PDF->TXT 文本文件与 PDF->TIFF->OCR->TXT 文本文件运行差异检查

  6. 将元数据标签和 txt diff 的布尔结果写入 csv 文件

我有 Adob​​e Acrobat X Pro、Cygwin 安装和 Windows Exiftool(来自这里) 来进行操作,并可以在必要时访问其他工具。

有人能给我一些关于如何解决这个问题的建议吗?

相关内容