我有一些扫描的杂志,有些页面上有粉色水印。我需要对它们进行 OCR 处理,OCR我的PDF似乎是完成这项工作的合适工具。但它无法转换水印上的文本。
我有准备了一个示例页面已经由ocrmypdf处理过。
让我们尝试在第二行搜索单词“forbindelse”(丹麦语中的连接)。您可以找到“forbind”,但如果您输入下一个字母 e,则不会匹配,因为单词的其余部分位于水印上方。
奇怪的是,它似乎也难以将文本转换到水印的右侧。例如,它无法在第 8 行找到单词“max”,但在同一行找到“Output”,因为它位于水印之前。您也可以通过双击水印后面的许多单词来查看它。OCR 的单词是可选的,但这些单词不是。
这是命令行:
ocrmypdf -l dan --skip-text --deskew --optimize 2 output.pdf output-ocr.pdf
我也尝试过,--remove-background
但是这个选项没有实现。
有什么方法可以调整命令以对水印上方的文本进行 OCR 处理?
答案1
解释:OCRmyPDF 使 OCR 变得非常混乱,而且不仅仅是水印周围的部分。
当我尝试使用 PDF 编辑器选择第一段中的所有元素时,我得到了以下信息:
您可以在此处看到大量文本对象以马赛克形式排列,给人一种连续文本的效果。但这不是真正的文本段落,只是一组位置合适的文本片段。例如,“forbindelse”一词被分成两个文本框,因此无法完整搜索。
看来 OCRmyPDF 可能不是将 PDF 转换为文本的合适工具。您可以尝试调整其 高级功能,但我对这个工具不太了解,无法提出任何建议。
要尝试其他工具,转换为文本,请参阅帖子 是否有某种 PDF 转文本的转换器?
这篇文章建议使用:pdftotext、pdf2line、calibre 的 ebook-convert、AbiWord、podofotextextract、pdf2ps with ps2ascii、Recoll。其中某个可能更适合您的情况。
如果您希望结果是经过 OCR 处理的 PDF,那么我所知道的最佳工具可能是 Microsoft Word - 只需打开 PDF 即可对文本进行 OCR。有关其他工具,请参阅帖子 如何对 PDF 文件进行 OCR 并获取存储在 PDF 中的文本?
您也可以在进行 OCR 之前尝试使用一些工具从扫描的图像中删除水印,尽管我不推荐任何工具。
答案2
在给定的上下文中不存在隐私问题,因此在浪费时间调整工具之前,我会尝试众多免费的在线工具之一。
谷歌搜索“免费在线 pdf ocr”,然后尝试 4-5 看看哪一个能给你最好的结果。
第一次尝试,我就取得了很好的成绩pdf24.org,还可以自动去除背景和伪影。