批量提取 PDF 文件的元数据和文本

2024-6-16 • tag-icon

我有一组 PDF 文件，其中所有文件都包含文本。但是，其中一些文件不知何故创建不正确；可选择的文本不可搜索或转换为纯文本（生成的文本文件包含扩展的 ASCII 字符）。有些文件甚至出现了更隐蔽的故障，导出到 txt 后只能读取某些文本（例如标题）。此外，由于这些文件在技术上属于“文本”PDF，因此无法直接在它们上运行 OCR（出现错误，提示“此页面包含可渲染文本”。）我正在尝试查明发生这种情况的原因以及如何修复损坏的 PDF。

这是我想要对每个 pdf 文件进行批处理的操作：

提取“PDF 制作器”元数据标签
将 PDF 转换为文本
将 PDF 转换为 TIFF
对生成的 TIFF 运行 OCR 并将其导出为 txt
对 PDF->TXT 文本文件与 PDF->TIFF->OCR->TXT 文本文件运行差异检查
将元数据标签和 txt diff 的布尔结果写入 csv 文件

我有 Adobe Acrobat X Pro、Cygwin 安装和 Windows Exiftool（来自这里) 来进行操作，并可以在必要时访问其他工具。

有人能给我一些关于如何解决这个问题的建议吗？

相关内容