为什么 OCR-Text 识别的每个字符后都有空格？

2024-6-4 • tag-icon

我正在尝试扫描所有文件并扔掉那些讨厌的纸张。为了简化这个过程，我最近买了一台 Brother ADS-2100e 扫描仪。我以为这台扫描仪可以在 USB 上创建 OCR-PDF，但我错了。USB 上的 PDF 不可搜索。所以我尝试在之后使用 pdfsandwich 添加 OCR。这有效，但我的 PDF 查看器（Evince，Ubuntu 16.04.2）找不到一个单词。每个单词的每个字符后都有空格。我选择了正确的 tesseract-language-pack，但“空格问题”不会消失。

例如：“Guten”这个词只能与“G ute n”一起找到，等等。

我尝试在 Windows 10 上使用 PDF-XChange-Viewer 搜索此单个 PDF 文件，一切正常。每个字符后都没有空格。

我尝试了 Ubuntu 上的其他 PDF 查看器和搜索工具（recoll、pdfgrep、qpdfview、Okular）。每个工具都只显示那些空格。我能做什么？

在大多数情况下，我只需要从 pdf 文件中找到一些单词即可使用 recoll 找到它，但如果有空格，我则无法找到任何一个。

我不认为 tesseract 是我的问题。看来 PDFViewers 和 Search-Tools 在读取 OCR 文本时遇到了问题。

这个问题已经在这里讨论过了：

https://bugs.ghostscript.com/show_bug.cgi?id=696116

我可以用一些变通方法解决我的问题：

我不在 USB 上创建 PDF 文件，而是创建 JPEG 文件。这些 JPEG 可以轻松转换为可搜索的 PDF 文件，方法是：

tesseract -l [LANGUAGE] [INPUT-PICTURE] [OUTPUT-FILE-NAME] pdf

现在我得到了可搜索的 PDF 文件，但我的第一个问题还没有解决。

相关内容