如何对带有表格的文档进行 OCR 并导出为文本(带有适当的左/右/上/下文本)?

如何对带有表格的文档进行 OCR 并导出为文本(带有适当的左/右/上/下文本)?

我有一个包含多页的文档,其中有如下所示的列表。

#1  2.1  This is some text. It can go onto the next line
         like this.
#2  1.3  More text.
#3  3.2  And some more text that goes on to the next
         line also.

#4  2.3  And some more text.

当我对文档进行 OCR 时,它似乎在某些页面上将列作为单独的块进行 OCR,而在其他页面上,它将所有文本捕获为一个大块。在此示例中,假设它将其捕获为 4 个块,如下图所示。

在此处输入图片描述

因此,当我导出(或复制/粘贴)时,Acrobat 会按块顺序导出。​​因此,我得到了如下文本。

#1
#2
#3
2.1
1.3
3.2
This is some text. It can go onto the next line
like this.
More text.
And some more text that goes on to the next
line also.

#4  2.3  And some more text.

如果我导出到 Word,布局看起来不错,但这是因为 Acrobat 已创建了包含部分和列的 Word 文档。在这种情况下,直到第 3 行末尾都是三列部分。然后是第 4 行的一列部分。因此,当我从 Word 导出到文本时,结果相同

我怎样才能让 Acrobat 进行 OCR 或使用简单的左/右/上/下导出文本,以便获得像原始文档一样的文本(就像我的第一个示例一样)?谢谢!

系统信息:

macOS 10.12.5 (16F73)  
Architecture: x86_64  
Build: 17.9.20044.222436  
AGM: 4.30.69  
CoolType: 5.14.5  
JP2K: 1.2.2.38123  

相关内容