从 Evernote 中提取 OCR 文本

从 Evernote 中提取 OCR 文本

印象笔记对您保存的图像进行 OCR。有没有办法在 Evernote 中获取图像的全文等价物,还是 OCR 仅用于搜索?

答案1

Evernote API 具有获取文本和该文本在图像中存在的矩形的功能。请参阅http://evernote.com/about/developer/api/evernote-api.htm,查看“Evernote 识别索引 XML 格式”和检索它的函数。问题是他们不做传统的 OCR ... 他们的 OCR 算法可能会为图像上的单个“单词”生成不同的单词。他们只使用它进行搜索,所以这对他们来说很好,但不适合将其用作识别引擎。(虽然他们为每个单词替代方案提供了权重,所以也许你可以使用它)

答案2

此外,Evernote 显然不会决定特定图像是否等同于一个单词 - 例如,Evernote 不会确定特定图像是“线索”而不是“到期”。相反,它会跟踪两者,搜索其中任何一个都会返回相同的图像。因此,无法获得全文等同物,因为 Evernote 不会决定全文实际上是什么,而只会决定它可能是什么。

答案3

evernote 向 ocr 产品的创建者支付了相当多的费用,或者支付了相当多的费用来使某些东西协同工作。因此,我真的怀疑他们是否会让你得到提取的文本(+在图像上的定位)。

(可以作为一种商业模式,扫描其他人的图像并提供良好的 OCR:))

所以,答案是:不是。

答案4

如果您可以从 Evernote 中获取所有图像,则可以使用 Google Docs 进行 OCR。

您可以将图像文件夹上传到 Google Docs,然后将其转换为文档,其中将包含图像和 OCR 文本。

然后,您可以批量下载所有这些文档作为纯文本,这样将删除图像。

如果您用哈希表(例如)命名所有 Evernote 图像md5,则应该很容易将从 Google Docs 下载的纯文本文件与原始图像链接起来。

相关内容