如何对带有表格的文档进行 OCR 并导出为文本（带有适当的左/右/上/下文本）？

2024-6-18 • tag-icon

如何对带有表格的文档进行 OCR 并导出为文本（带有适当的左/右/上/下文本）？

我有一个包含多页的文档，其中有如下所示的列表。

#1  2.1  This is some text. It can go onto the next line
         like this.
#2  1.3  More text.
#3  3.2  And some more text that goes on to the next
         line also.

#4  2.3  And some more text.

当我对文档进行 OCR 时，它似乎在某些页面上将列作为单独的块进行 OCR，而在其他页面上，它将所有文本捕获为一个大块。在此示例中，假设它将其捕获为 4 个块，如下图所示。

因此，当我导出（或复制/粘贴）时，Acrobat 会按块顺序导出。因此，我得到了如下文本。

#1
#2
#3
2.1
1.3
3.2
This is some text. It can go onto the next line
like this.
More text.
And some more text that goes on to the next
line also.

#4  2.3  And some more text.

如果我导出到 Word，布局看起来不错，但这是因为 Acrobat 已创建了包含部分和列的 Word 文档。在这种情况下，直到第 3 行末尾都是三列部分。然后是第 4 行的一列部分。因此，当我从 Word 导出到文本时，结果相同

我怎样才能让 Acrobat 进行 OCR 或使用简单的左/右/上/下导出文本，以便获得像原始文档一样的文本（就像我的第一个示例一样）？谢谢！

系统信息：

macOS 10.12.5 (16F73)  
Architecture: x86_64  
Build: 17.9.20044.222436  
AGM: 4.30.69  
CoolType: 5.14.5  
JP2K: 1.2.2.38123

相关内容