我有一个包含多页的文档,其中有如下所示的列表。
#1 2.1 This is some text. It can go onto the next line
like this.
#2 1.3 More text.
#3 3.2 And some more text that goes on to the next
line also.
#4 2.3 And some more text.
当我对文档进行 OCR 时,它似乎在某些页面上将列作为单独的块进行 OCR,而在其他页面上,它将所有文本捕获为一个大块。在此示例中,假设它将其捕获为 4 个块,如下图所示。
因此,当我导出(或复制/粘贴)时,Acrobat 会按块顺序导出。因此,我得到了如下文本。
#1
#2
#3
2.1
1.3
3.2
This is some text. It can go onto the next line
like this.
More text.
And some more text that goes on to the next
line also.
#4 2.3 And some more text.
如果我导出到 Word,布局看起来不错,但这是因为 Acrobat 已创建了包含部分和列的 Word 文档。在这种情况下,直到第 3 行末尾都是三列部分。然后是第 4 行的一列部分。因此,当我从 Word 导出到文本时,结果相同
我怎样才能让 Acrobat 进行 OCR 或使用简单的左/右/上/下导出文本,以便获得像原始文档一样的文本(就像我的第一个示例一样)?谢谢!
系统信息:
macOS 10.12.5 (16F73)
Architecture: x86_64
Build: 17.9.20044.222436
AGM: 4.30.69
CoolType: 5.14.5
JP2K: 1.2.2.38123