如何将 PDF 格式解析为可用的文本或电子表格文档?

如何将 PDF 格式解析为可用的文本或电子表格文档?

当我向负责此类请求的同事索要每日/每小时销售数据时,他们给了我一系列 PDF 文件。出于某种原因,所使用的销售点程序以 PDF 文件的形式回答此类信息的请求。

问题:

PDF 文件的格式看起来应该很容易复制并粘贴到电子表格中。两页中有三列看起来整齐地排列在一起。复制/粘贴第一页时,PDF 第一页的所有三列都会被转储到一列中,该列由日期和当天交易的小时组成。此日期/时间信息的末尾是所有应附加交易日期和时间的总销售额值。(注意:日期列中没有重复的日期,即一天的多个交易在第一行仅列出一个 yyyy/mm/dd,而后面的行则没有。)

虽然这非常麻烦,但只需大约四五个步骤就可以将单列数据分成与 PDF 匹配的三列。

当尝试将 PDF 文件的第二页复制/粘贴到电子表格中时,会创建一个单列,其中前三分之一的单元格为 PDF 中的日期,后三分之一的单元格为交易的小时数,最后三分之一的单元格为总销售额。

复制/粘贴后,由于缺少上面提到的日期列中的重复日期,因此无法确定哪些小时属于哪些日期或总销售额。

我的 PDF-fu 几乎不存在。我刚刚开始使用 PDF 编辑器和一些 www.convertmyPDFforfree.com 网站,到目前为止,完全没有任何东西可以输出可用的内容。(到目前为止,这两种方法都只产生了空白文档。)

在我回去缠着我的同事想办法创建 PDF 以外的其他格式的报告之前,有没有什么方法可以将 PDF 中看起来格式正确的数据复制/粘贴到看起来相同的电子表格中?

我很感激任何可以提供的帮助。销售数据并不那么敏感,我不愿意花一点钱让别人真正看到需要处理的内容,只要告诉我就行。每个 PDF 都小于 100kb,因此发送它们对任何感兴趣的人来说都不应该成为负担。

答案1

我目前解决自己问题的方法就是使用pdf转文本

然后我使用 Ubuntu 的终端导航到包含 PDF 的文件夹。语法是:

pdf转文本要转换为文本的pdf文件的全名.pdf 所创建文本文件的名称-布局

如果不添加 -layout,文本输出与我直接从 PDF 复制和粘贴的尝试没有什么不同。(这完全是一团糟,无法使用)。在命令行中添加 -layout 参数给了我一个镜像 PDF 的文本文件。

将新创建的文本文件复制/粘贴到电子表格中,并确保选中“导入文本”或“选择性粘贴”菜单上的“空格”复选框,这样可以保持行的完整性,但会增加很多列,并且在某些间隔内,一行中的列会偏移一到两列。通过删除多余的空列可以解决这个问题。

经过进一步调查,发现命令行末尾的 -raw 参数比 -layout 效果更好。在包含 PDF 的文件夹中的语法:

pdf转文本要转换为文本的pdf文件的全名.pdf 所创建文本文件的名称-生的

通过选中“分隔符选项”中的“空格”复选框,将新文本文件粘贴到电子表格中,结果产生了整齐的四列,唯一的问题是由于我的源数据没有重复在同一天发生交易的每一行的日期。

精彩的!

注意:我的源 PDF 中只有文本。没有图形。

答案2

我有 Acrobat Pro,但如果你有 X 或 XI,它也应该可以工作,不确定 Reader 是否可用。选择要捕获的列形式的数据。右键单击并选择“复制为表格”。然后,你可以将其粘贴为 Word 或 Excel 中的表格。

答案3

我会使用一些 OCR 软件来处理 PDF 文件并提取所有数据,Abby Fine Reader 可以直接读取和处理 pdf 文件。

相关内容