从 Doc 或 PDF 中提取数据到电子表格的最快方法

从 Doc 或 PDF 中提取数据到电子表格的最快方法

我收到大量报告,需要提取一些数据并将其放入更好的格式(Excel 工作表)。报告以 docx 或 pdf 格式出现,看起来像这样。

Miscellaneous data...................    
Unneeded data.......        
             North               South            West
Name         Lakeview Church     Lakeview Church  
Making       Brick               Wood  
Status       Gone                "small checkmark"
unneeded data.......    
Name         Baxter Building                      Baxter Building
Making       Brick                                Brick
Making       Gone                                 Great

PDF 中有可高亮显示的文本,但文本并非全部在表格中,PDF 或 Word 文档中亦是如此。有些在表格中,其他的则在适当放置的文本框中。

我有点冒险,但我希望有一些东西可以让我制作某种模板,提取适当的数据并重新组织它,如下所示:

Name               Direction        Making          Status
Lakeview Church    North            Brick           Gone
Lakeview Church    South            Wood            Good

此外,报告中还有一些小图像。我不需要提取这些图像,但如果可以将它们翻译成某种东西来显示图像的存在,那就太好了。而且,如果我可以告诉它做一些事情,比如忽略北侧名称中带有“教堂”的所有事物,那就太完美了。

我不需要文档解决方案Pdfs。我可以使用最简单的那个。

请为我指明完成这些任务的最快/最简便的方法。是否有一个方便的程序可以做到这一点,或者这是否是我必须自己编写的程序。但是,我是新手,所以请给我一个适合新手的起点。

答案1

根据您的预算和您期望的自动化程度,有多种方法。

剪切/粘贴和自定义解析

您手动打开文档并将内容以文本形式复制到其他程序(可能是 Excel)中。然后,具有编程经验的人编写程序或 Excel 宏,尝试从文本中提取表格,并生成表格布局正确的 Excel 电子表格。

光学字符识别 (OCR)

您可以购买 OCR 应用程序,它们可以从文档和/或图像中提取结构化数据,并输出到 Excel 电子表格。简单的应用程序只输出文本,但更高规格的应用程序将能够确定表格布局。在 Google 上搜索“OCR 应用程序”。

文档捕获

最自动化的解决方案是“教”应用程序有关文档结构的信息,以便它能够提取您想要的数据。Kofax Express 就是一个例子。它主要是一个扫描应用程序,但也可用于处理文档。这是最昂贵但功能最强大的解决方案。请注意,Kofax 网站上充斥着令人生畏的商业软件,但我认为 Kofax Express 是入门级产品。

相关内容