为什么 OCR-Text 识别的每个字符后都有空格?

为什么 OCR-Text 识别的每个字符后都有空格?

我正在尝试扫描所有文件并扔掉那些讨厌的纸张。为了简化这个过程,我最近买了一台 Brother ADS-2100e 扫描仪。我以为这台扫描仪可以在 USB 上创建 OCR-PDF,但我错了。USB 上的 PDF 不可搜索。所以我尝试在之后使用 pdfsandwich 添加 OCR。这有效,但我的 PDF 查看器(Evince,Ubuntu 16.04.2)找不到一个单词。每个单词的每个字符后都有空格。我选择了正确的 tesseract-language-pack,但“空格问题”不会消失。

例如:“Guten”这个词只能与“G ute n”一起找到,等等。

我尝试在 Windows 10 上使用 PDF-XChange-Viewer 搜索此单个 PDF 文件,一切正常。每个字符后都没有空格。

我尝试了 Ubuntu 上的其他 PDF 查看器和搜索工具(recoll、pdfgrep、qpdfview、Okular)。每个工具都只显示那些空格。我能做什么?

在大多数情况下,我只需要从 pdf 文件中找到一些单词即可使用 recoll 找到它,但如果有空格,我则无法找到任何一个。

我不认为 tesseract 是我的问题。看来 PDFViewers 和 Search-Tools 在读取 OCR 文本时遇到了问题。

这个问题已经在这里讨论过了:

https://bugs.ghostscript.com/show_bug.cgi?id=696116

我可以用一些变通方法解决我的问题:

我不在 USB 上创建 PDF 文件,而是创建 JPEG 文件。这些 JPEG 可以轻松转换为可搜索的 PDF 文件,方法是:

tesseract -l [LANGUAGE] [INPUT-PICTURE] [OUTPUT-FILE-NAME] pdf

现在我得到了可搜索的 PDF 文件,但我的第一个问题还没有解决。

相关内容