我有几台机器运行 tesseract-ocr 4.0 用于不同的应用程序。这些机器的配置相似(4 核,16 GB 内存),并且全部运行 Ubuntu 16.04.5 LTS。
然而,在工作过程中,至少有一个应用程序已经分叉并正在运行某物这显著提高了 Tesseract 的性能。对于特定页面,其他实例的 Tesseract 需要 7-7.5 秒,而此特定实例的 Tesseract 仅需 3.5-4 秒。
自然,我想找出造成这种情况的原因,并尝试将其应用到所有其他情况中。
这是我到目前为止发现的所有内容。1. 它们的存储都相同,因此 SSD/磁性硬盘性能没有差异 2. CPU 核心相同,i5-7400,3 GHz 2. 操作系统版本(16.04.5)和内核版本(Linux 4.15.0-47-generic)相同。3. 这些是 tesseract-ocr 版本和依赖库详细信息
tesseract 4.1.0-rc1-255-g332a1
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.3.0
除了比较每个系统上安装的每个软件包之外,我如何才能找到导致改进的原因?
答案1
tesseract 的性能最受它处理的字体、图像中文本的大小、图像的类型(tiff 产生最准确的结果,jpg 处理最快)和图像质量的影响。
为了抵消系统上运行的其他软件的竞争,请将“nice”与 tesseract 结合使用