在 Tesseract 的 jTessBoxEditor 中如何将多个 TIFF/boxfile 合并为一个训练数据文件

在 Tesseract 的 jTessBoxEditor 中如何将多个 TIFF/boxfile 合并为一个训练数据文件

我认为这可以通过命令行实现,但是如何使用 jTessBoxEditor 来实现,因为它可以自动化大量的工作流程。

由于 jTessBox 支持多页 TIFF,我认为这可能是一种方法,但是在这种情况下我该如何组织 boxfiles?

答案1

您需要更新每个框文件中的页码(第 6 列),然后将这些文件合并为一个。页码从零开始,需要与多页 TIFF 图像中各个页面的顺序相匹配。完成后,您可以通过在 jTessBoxEditor 中打开图像来验证框是否与图像匹配。

相关内容