“tesseract” 到底是什么?

“tesseract” 到底是什么?

就像许多提供免费/开源版本并销售“商业”版本的软件公司一样,他们尽可能地使下载和使用免费版本变得神秘和不友好。这是一个典型的例子:https://mupdf.com/downloads/

Windows 有两个不同的文件可供下载:

mupdf-1.18.0-windows.zip
mupdf-1.18.0-windows-tesseract.zip

“-tesseract” 是什么?不知道。我浏览了该页面、其他页面、在线搜索等。毫无头绪。没有一个词能解释它们的区别或“tesseract”是什么意思。维基百科的歧义消除页面也没有提供任何线索来说明它可能指的是什么。

什么是“tesseract”?更重要的是:它与 PDF 查看有什么关系,为什么它是一个单独的文件?

答案1

tesseract是一个开源OCR程序它可以自由地集成到其他程序中。

搜索 muPDF 网站给出关于包裹的内容的一些提示

api:可选使用 Tesseract 使用 OCR 提取文本。

因此,由于它是电子书阅读器,并且可能其中一些电子书是基于图像的 PDF 或纯图像,因此需要 OCR 阅读器来提取文本。在这种情况下,它使用tesseract

如果没有的tesseract话,文本提取可能就无法在基于图像的书籍上进行,并且您将只能从适当的纯文本电子书中抓取文本。

如果你知道你永远不需要从图像中提取文本,那么你可以通过不下载版本来节省下载时间并减少程序占用空间-tesseract。如果你需要OCR 然后你下载-tesseract版本。

答案2

根据维基百科多媒体PDF是一个带有简陋查看器的软件框架。文档也很简陋,这并不奇怪。
我挖掘了一些有关 MuPDF 的新 OCR 功能的信息。

  • 从下载的 mupdf-1.18.0-windows-tesseract.zip 中提取 TESSERACT.txt 获取安装说明。

  • 显示命令行帮助

    mutool draw
    -F - 输出格式(默认从输出文件名推断)
    ...
    ocr'd 文本:ocr.txt、ocr.html、ocr.xhtml、ocr.stext

示例调用

mutool draw -F ocr.txt -o x.txt x.pdf

OCR 结果较差,考虑使用 OCRmyPDF,它也是开源的且基于 Tesseract。

相关内容