Tesseract 的最佳字体？（特别是.NET 包装器）

Question 1

我做了一个实验来回答这个问题。

以下是 Tesseract v4.1.1 的结果，我给出了表现最佳的字体：

Answer

我做了一个实验来回答这个问题。

以下是 Tesseract v4.1.1 的结果，我给出了表现最佳的字体：

Question 2

我经常使用 tesseract-ocr，根据我的经验，只有两个因素可以提高其性能：源图像为 tiff 格式，以及图像中文本的物理大小。因此，我针对图像以及调整大小为 200%、400% 和 800% 的图像运行它。对于生成的每个文本，我都会计算标记为拼写错误的单词数量并进行相应选择。

字体肯定会影响 tesseract 的性能，但我认为它与您的情况无关，您是否只能使用用于制作您拍摄的文本文档的字体？

Answer

我经常使用 tesseract-ocr，根据我的经验，只有两个因素可以提高其性能：源图像为 tiff 格式，以及图像中文本的物理大小。因此，我针对图像以及调整大小为 200%、400% 和 800% 的图像运行它。对于生成的每个文本，我都会计算标记为拼写错误的单词数量并进行相应选择。

字体肯定会影响 tesseract 的性能，但我认为它与您的情况无关，您是否只能使用用于制作您拍摄的文本文档的字体？

Question 3

最好的选择是针对您所使用的字体对其进行训练。

我不想假装这是一个简单的过程，事实并非如此，但它应该会更好。而且大多数 OCR 程序都支持 300dpi 或 600dpi，因此可能需要升级。

Tesseract Github Wiki 上有一些很好的资源训练 Tesseract。

Answer

最好的选择是针对您所使用的字体对其进行训练。

我不想假装这是一个简单的过程，事实并非如此，但它应该会更好。而且大多数 OCR 程序都支持 300dpi 或 600dpi，因此可能需要升级。

Tesseract Github Wiki 上有一些很好的资源训练 Tesseract。

相关内容