在我们的办公室,我们每天都要扫描大量收到的文件。我们确实有一台带自动进纸器的扫描仪,它可以将每份扫描的文件保存到我们网络上的某个文件共享中。然而,有人必须站在扫描仪前面,一次给它送一份文件,等待扫描仪完成并上传,然后再给它送下一份文件,以确保我们最终得到每份文件一个 PDF。(每份文件可能有 1 到 X 页。)
因此,我们的想法是,在文档堆之间放置一种分隔页,然后一次性扫描整个文档堆。之后,我们需要一个工具将生成的大型 PDF 再次拆分为单个文档,我们不想手动执行此操作。对于某些批量 PDF 处理工具来说,识别分隔页并相应地拆分 PDF 应该不是什么难事。
下一步将使用分隔页,它将告诉工具下一个文档要放入哪个文件夹,例如“发票”、“客户查询”......
我希望我很好地解释了我在寻找什么?我很惊讶我没有找到任何东西,至少没有使用免费提供的工具,如 PDFtk 或类似工具。
答案1
原来我正在寻找的技术叫做“补丁代码”,见https://en.wikipedia.org/wiki/Patch_Code。
确实似乎有软件可以处理这个问题,例如https://www.chronoscan.org/仅举一例。(有免费版本。)
另外还有一个在线生成器可以生成补丁代码页,网址为https://patchcode.kodakalaris.com/en/index.html。
尝试在 Ubuntu 中创建一些脚本管道以进行批量 PDF 处理,可能值得一看http://zbar.sourceforge.net/(在 Ubuntu 中可用作 zbar-tools)作为起点。
答案2
要拆分一个多页 pdf 文档,您可以使用 PDFSAM。您可以从以下位置下载 PDFSAM Basic这里。