将 PDF 转换为忽略结构的文本

将 PDF 转换为忽略结构的文本

我正在寻找一个可以批量将pdf转换为文本的工具

我不希望该工具尝试维护任何类型的结构,只是逐行打印并在单词之间留有空格。

到目前为止,我遇到的所有工具,如 pdftotext、pdf2text 等,都试图分离结构,最终弄得一团糟。原始文档结构很差,扫描后发现很多结构都混在一起了,所以我想从所有 pdf 中获得最一致的内容,目前最好的方法似乎是逐行提取每个单词。

我的目的是提取包含键值对的文本并将其与数据库中的数据进行比较。

答案1

如果您想批量将 PDF 文件转换为文本,请查看我公司的产品,Debenu PDF 工具专业版

它有三种不同的选项用于将 PDF 文件转换为文本,这些选项应该会为您提供所需的输出。下面屏幕截图中显示的第一个选项将逐行提取 PDF 中的文本,而不会对其进行格式化。第二个选项尝试保留原始布局。

这是一款专为批处理而设计的工具。有 14 天的全功能试用期,试用期结束后会恢复为精简模式,该模式不受功能限制,但每天可处理的文件数量有限制。

在此处输入图片描述

相关内容