我希望能够找到以下内容很棒的图像以及文本在其中的位置。这不是我第一次遇到这样的挑战,可能很多人也会时不时地遇到类似的问题。我认为这是一个很好的例子,说明了普遍的问题。
有很多方法(1,2,3,4...)以定制的方式实现这一点,但有没有光学字符识别 (OCR)有没有人能自动将其转换为文本 PDF?或者任何其他格式。我引用 PDF 只是因为它是专门为处理这类内容而设计的格式。
好像楔形文字是一个完美的手动工具,但我不能编译它在 Mac 上,我不会为这个例子费心去做,但我敢打赌一些坚持不懈的实习生会用它来补充 OCR,而 OCR 永远无法识别其中的图像。
这是图像的缩小样本,以便我们可以更好地描绘问题的相关性:
答案1
一些几乎解决方案:
Google Docs 会进行 OCR 但不会将文本作为图层插入(我自己还没有尝试过) http://googledocs.blogspot.com/2010/06/optical-character-recognition-ocr-in.html
Abbyy Finereader(http://www.abbyy.com/)会将其转换为带有底层文本的 PDF(我目前将其用于此目的),但它需要付费(你可以获取试用版)并且仅适用于 Windows
Evernote 可以在图片内进行 OCR,但我不知道它是否可以导出带有底层文本的 PDF
您可以下载 Acrobat Pro 试用版,然后使用“文档”>“OCR 文本识别”>“使用 OCR 识别文本”。我确实在工作中使用 Acrobat Pro,但从未使用过 OCR 功能,所以不知道它有多好用。同样,仅适用于 Windows(但您可能在 VM/Parallels/Virtualbox/Bootcamp 上使用 Windows)
答案2
您链接的图像分辨率太低,大多数 OCR 软件都很难处理,最终可能会得到一个非常糟糕的解决方案。老实说,如果您现在就开始自己转录,您可能会节省很多时间,而不必寻找一些软件包、试用它们、尝试让它们工作,最终不得不修复由于误读而导致的所有其他条目。