如何训练 Tesseract 适应新的 ttf 字体？

Question

这训练你的四面体网站只负责生成.traineddata，它不负责准确性。所以你得到后仍然需要更多的培训.traineddata文件。

我确实发现了训练你的四面体是，但绝对不是100%，从结果来看，准确率还需要很大的提升。

微调。从现有的训练语言开始，使用特定的附加数据进行训练。这可能适用于与现有训练数据接近但在某些细微方面有所不同的问题，例如特别不寻常的字体。即使使用少量训练数据也可能有效。

从网络中切断顶层（或任意数量的层），并使用新数据重新训练新的顶层。如果微调不起作用，这很可能是下一个最佳选择。如果您从最相似的脚本开始，切断顶层仍然可能适用于训练全新的语言或脚本。

从头开始重新训练。这是一项艰巨的任务，除非你有一个非常有代表性且足够大的训练集来处理你的问题。如果没有，你最终可能会得到一个过度拟合的网络，它在训练数据上表现很好，但在实际数据上却表现不佳。

您可以Palace.traineddata从头开始重新训练您的。缺点是您需要提供大量的训练数据。或者您可以对您的进行微调palacescript.tiff，eng.traineddata但它仍然需要大量的训练数据。

如果您不能提供这些庞大的数据。别担心！

您可以关注如何为Tesseract OCR准备训练文件并提高字符识别率？，基于 Legacy 引擎构建。。盒子制作的文件makebox不能适用于LSTM引擎。

Answer 1

这训练你的四面体网站只负责生成.traineddata，它不负责准确性。所以你得到后仍然需要更多的培训.traineddata文件。