我所拥有的/工作流程的背景
我们每天都会收到一份扫描的 PDF,其中包含前一天从仓库发出的所有货物。PDF 页面按货物顺序排列。
每批货物的页数因多种因素(证书、税金、海关等)而异,但有 2-3 种页面类型在每批货物中遵循大致相同的格式。
每批货物的每个位置 ID 都有自己的页面,并且这些页面遵循与 SKU/货物编号大致相同的格式 - 右侧有一个表格,其中一行代表从该位置提取的每个单独的项目。 我想提取这些 SKU 编号,以便将它们与我们在系统中记录的编号进行比较
如果证件有凭证,那么locationID页面的表格里会多出一列,标明折扣美元金额。
我有使用 Python 和 Excel 的经验,并且刚刚获得 Adobe 许可证,因此可以使用 Adobe Acrobat 的全部功能集。
我正在寻找
我每天都要查看这份 PDF,确认库存是从正确的位置提取的,并将系统中的报价中的回扣金额更新为实际金额,该金额由 PDF 确定
鉴于这个论坛是为高级用户准备的,我想知道是否有人可以提供工作流程或潜在自动化解决方案的指导,这样我就不用在每批货物的多个页面之间滚动了。对我来说,理想的输出应该是像下面这样的 csv,但我不知道这是否可行:
运输 | 地点 | 回扣 |
---|---|---|
ABC | 123 | 100美元 |
ABC | 345 | 150美元 |
XYZ | 123 | $0 |
低密度脂蛋白 | 345 | 200美元 |
我当前的工作流程是浏览并标记 PDF 中每批货物的第一页,然后按照系统生成的、我们的运营团队标记为已发货的订单列表,转到每个订单的相应书签。
任何正确的方向的指示都将不胜感激!我认为开始的地方是尝试找到一种方法来专门拉出或分离 locationID 表。
我不太在意读错字符,因为位置 ID 号足够清晰;而且考虑到这是我的工作,我可以在心里估算回扣金额。
答案1
对于商业文件,特别一个具有财务影响的“页面类型如下大致格式相同,”还不够好. PDF 文档旨在提供特定的外貌在页面上,但不保证使用特定字符来执行此操作。
举个例子,finance
一个文档可能包含 ,而不是finance
。 有什么区别? 第一个有单独的字母“f”和“i”,而第二个使用单个 Unicode 连字符“fi”. 自动解析 PDF 文档以提取数据有风险。
如果你愿意承担这个风险,并且如果您会检查每次文件转换的结果,您可能会尝试使用 OCR 首先将 PDF 更改为纯文本——并预计会出现 OCR 错误。
改变运营方式才是更明智的做法一开始使用易于解析的标准化格式,例如电子表格、CSV、数据库文件或也许标准化的 Adobe形式仅可输入特定字段。