“tesseract” 到底是什么？

Question 1

tesseract是一个开源OCR程序它可以自由地集成到其他程序中。

api：可选使用 Tesseract 使用 OCR 提取文本。

因此，由于它是电子书阅读器，并且可能其中一些电子书是基于图像的 PDF 或纯图像，因此需要 OCR 阅读器来提取文本。在这种情况下，它使用tesseract。

如果没有的tesseract话，文本提取可能就无法在基于图像的书籍上进行，并且您将只能从适当的纯文本电子书中抓取文本。

如果你知道你永远不需要从图像中提取文本，那么你可以通过不下载版本来节省下载时间并减少程序占用空间-tesseract。如果你需要OCR 然后你想下载-tesseract版本。

Answer

tesseract是一个开源OCR程序它可以自由地集成到其他程序中。

api：可选使用 Tesseract 使用 OCR 提取文本。

因此，由于它是电子书阅读器，并且可能其中一些电子书是基于图像的 PDF 或纯图像，因此需要 OCR 阅读器来提取文本。在这种情况下，它使用tesseract。

如果没有的tesseract话，文本提取可能就无法在基于图像的书籍上进行，并且您将只能从适当的纯文本电子书中抓取文本。

如果你知道你永远不需要从图像中提取文本，那么你可以通过不下载版本来节省下载时间并减少程序占用空间-tesseract。如果你需要OCR 然后你想下载-tesseract版本。

Question 2

根据维基百科多媒体PDF是一个带有简陋查看器的软件框架。文档也很简陋，这并不奇怪。
我挖掘了一些有关 MuPDF 的新 OCR 功能的信息。

示例调用

mutool draw -F ocr.txt -o x.txt x.pdf

OCR 结果较差，考虑使用 OCRmyPDF，它也是开源的且基于 Tesseract。

Answer

根据维基百科多媒体PDF是一个带有简陋查看器的软件框架。文档也很简陋，这并不奇怪。
我挖掘了一些有关 MuPDF 的新 OCR 功能的信息。

示例调用

mutool draw -F ocr.txt -o x.txt x.pdf

OCR 结果较差，考虑使用 OCRmyPDF，它也是开源的且基于 Tesseract。

相关内容