可通过工作流或自动化解决方案从包含多批货物的 PDF 中提取货物数据

可通过工作流或自动化解决方案从包含多批货物的 PDF 中提取货物数据

我所拥有的/工作流程的背景

我们每天都会收到一份扫描的 PDF,其中包含前一天从仓库发出的所有货物。PDF 页面按货物顺序排列。

每批货物的页数因多种因素(证书、税金、海关等)而异,但有 2-3 种页面类型在每批货物中遵循大致相同的格式。

每批货物的每个位置 ID 都有自己的页面,并且这些页面遵循与 SKU/货物编号大致相同的格式 - 右侧有一个表格,其中一行代表从该位置提取的每个单独的项目。 我想提取这些 SKU 编号,以便将它们与我们在系统中记录的编号进行比较

如果证件有凭证,那么locationID页面的表格里会多出一列,标明折扣美元金额。

我有使用 Python 和 Excel 的经验,并且刚刚获得 Adob​​e 许可证,因此可以使用 Adob​​e Acrobat 的全部功能集。

我正在寻找

我每天都要查看这份 PDF,确认库存是从正确的位置提取的,并将系统中的报价中的回扣金额更新为实际金额,该金额由 PDF 确定

鉴于这个论坛是为高级用户准备的,我想知道是否有人可以提供工作流程或潜在自动化解决方案的指导,这样我就不用在每批货物的多个页面之间滚动了。对我来说,理想的输出应该是像下面这样的 csv,但我不知道这是否可行:

运输 地点 回扣
ABC 123 100美元
ABC 345 150美元
XYZ 123 $0
低密度脂蛋白 345 200美元

我当前的工作流程是浏览并标记 PDF 中每批货物的第一页,然后按照系统生成的、我们的运营团队标记为已发货的订单列表,转到每个订单的相应书签。

任何正确的方向的指示都将不胜感激!我认为开始的地方是尝试找到一种方法来专门拉出或分离 locationID 表。

我不太在意读错字符,因为位置 ID 号足够清晰;而且考虑到这是我的工作,我可以在心里估算回扣金额。

答案1

对于商业文件,特别一个具有财务影响的“页面类型如下大致格式相同,”还不够好. PDF 文档旨在提供特定的外貌在页面上,但不保证使用特定字符来执行此操作。

举个例子,finance一个文档可能包含 ,而不是finance。 有什么区别? 第一个有单独的字母“f”和“i”,而第二个使用单个 Unicode 连字符“fi”. 自动解析 PDF 文档以提取数据有风险

如果你愿意承担这个风险,并且如果您会检查每次文件转换的结果,您可能会尝试使用 OCR 首先将 PDF 更改为纯文本——并预计会出现 OCR 错误。

改变运营方式才是更明智的做法一开始使用易于解析的标准化格式,例如电子表格、CSV、数据库文件或也许标准化的 Adob​​e形式仅可输入特定字段。

相关内容