可通过工作流或自动化解决方案从包含多批货物的 PDF 中提取货物数据

Question

对于商业文件，特别一个具有财务影响的“页面类型如下大致格式相同，”还不够好. PDF 文档旨在提供特定的外貌在页面上，但不保证使用特定字符来执行此操作。

举个例子，finance一个文档可能包含，而不是ﬁnance。有什么区别？第一个有单独的字母“f”和“i”，而第二个使用单个 Unicode 连字符“fi”. 自动解析 PDF 文档以提取数据有风险。

如果你愿意承担这个风险，并且如果您会检查每次文件转换的结果，您可能会尝试使用 OCR 首先将 PDF 更改为纯文本——并预计会出现 OCR 错误。

改变运营方式才是更明智的做法一开始使用易于解析的标准化格式，例如电子表格、CSV、数据库文件或也许标准化的 Adobe形式仅可输入特定字段。

Answer 1

对于商业文件，特别一个具有财务影响的“页面类型如下大致格式相同，”还不够好. PDF 文档旨在提供特定的外貌在页面上，但不保证使用特定字符来执行此操作。

举个例子，finance一个文档可能包含，而不是ﬁnance。有什么区别？第一个有单独的字母“f”和“i”，而第二个使用单个 Unicode 连字符“fi”. 自动解析 PDF 文档以提取数据有风险。

如果你愿意承担这个风险，并且如果您会检查每次文件转换的结果，您可能会尝试使用 OCR 首先将 PDF 更改为纯文本——并预计会出现 OCR 错误。

改变运营方式才是更明智的做法一开始使用易于解析的标准化格式，例如电子表格、CSV、数据库文件或也许标准化的 Adobe形式仅可输入特定字段。

相关内容