OCRmyPDF 无法转换带有水印的页面

Question 1

解释：OCRmyPDF 使 OCR 变得非常混乱，而且不仅仅是水印周围的部分。

当我尝试使用 PDF 编辑器选择第一段中的所有元素时，我得到了以下信息：

您可以在此处看到大量文本对象以马赛克形式排列，给人一种连续文本的效果。但这不是真正的文本段落，只是一组位置合适的文本片段。例如，“forbindelse”一词被分成两个文本框，因此无法完整搜索。

看来 OCRmyPDF 可能不是将 PDF 转换为文本的合适工具。您可以尝试调整其高级功能，但我对这个工具不太了解，无法提出任何建议。

这篇文章建议使用：pdftotext、pdf2line、calibre 的 ebook-convert、AbiWord、podofotextextract、pdf2ps with ps2ascii、Recoll。其中某个可能更适合您的情况。

如果您希望结果是经过 OCR 处理的 PDF，那么我所知道的最佳工具可能是 Microsoft Word - 只需打开 PDF 即可对文本进行 OCR。有关其他工具，请参阅帖子如何对 PDF 文件进行 OCR 并获取存储在 PDF 中的文本？

您也可以在进行 OCR 之前尝试使用一些工具从扫描的图像中删除水印，尽管我不推荐任何工具。

Answer

解释：OCRmyPDF 使 OCR 变得非常混乱，而且不仅仅是水印周围的部分。

当我尝试使用 PDF 编辑器选择第一段中的所有元素时，我得到了以下信息：

您可以在此处看到大量文本对象以马赛克形式排列，给人一种连续文本的效果。但这不是真正的文本段落，只是一组位置合适的文本片段。例如，“forbindelse”一词被分成两个文本框，因此无法完整搜索。

看来 OCRmyPDF 可能不是将 PDF 转换为文本的合适工具。您可以尝试调整其高级功能，但我对这个工具不太了解，无法提出任何建议。

要尝试其他工具，转换为文本，请参阅帖子是否有某种 PDF 转文本的转换器？

这篇文章建议使用：pdftotext、pdf2line、calibre 的 ebook-convert、AbiWord、podofotextextract、pdf2ps with ps2ascii、Recoll。其中某个可能更适合您的情况。

如果您希望结果是经过 OCR 处理的 PDF，那么我所知道的最佳工具可能是 Microsoft Word - 只需打开 PDF 即可对文本进行 OCR。有关其他工具，请参阅帖子如何对 PDF 文件进行 OCR 并获取存储在 PDF 中的文本？

您也可以在进行 OCR 之前尝试使用一些工具从扫描的图像中删除水印，尽管我不推荐任何工具。

Question 2

在给定的上下文中不存在隐私问题，因此在浪费时间调整工具之前，我会尝试众多免费的在线工具之一。

谷歌搜索“免费在线 pdf ocr”，然后尝试 4-5 看看哪一个能给你最好的结果。

第一次尝试，我就取得了很好的成绩pdf24.org，还可以自动去除背景和伪影。

结果：几乎所有单词都已 OCR。仍有一些乱码

Answer

在给定的上下文中不存在隐私问题，因此在浪费时间调整工具之前，我会尝试众多免费的在线工具之一。

谷歌搜索“免费在线 pdf ocr”，然后尝试 4-5 看看哪一个能给你最好的结果。

第一次尝试，我就取得了很好的成绩pdf24.org，还可以自动去除背景和伪影。

结果：几乎所有单词都已 OCR。仍有一些乱码

相关内容