我有一组 PDF 文件,其中所有文件都包含文本。但是,其中一些文件不知何故创建不正确;可选择的文本不可搜索或转换为纯文本(生成的文本文件包含扩展的 ASCII 字符)。有些文件甚至出现了更隐蔽的故障,导出到 txt 后只能读取某些文本(例如标题)。此外,由于这些文件在技术上属于“文本”PDF,因此无法直接在它们上运行 OCR(出现错误,提示“此页面包含可渲染文本”。)我正在尝试查明发生这种情况的原因以及如何修复损坏的 PDF。
这是我想要对每个 pdf 文件进行批处理的操作:
提取“PDF 制作器”元数据标签
将 PDF 转换为文本
将 PDF 转换为 TIFF
对生成的 TIFF 运行 OCR 并将其导出为 txt
对 PDF->TXT 文本文件与 PDF->TIFF->OCR->TXT 文本文件运行差异检查
将元数据标签和 txt diff 的布尔结果写入 csv 文件
我有 Adobe Acrobat X Pro、Cygwin 安装和 Windows Exiftool(来自这里) 来进行操作,并可以在必要时访问其他工具。
有人能给我一些关于如何解决这个问题的建议吗?