Debian Buster:Tesseract 不支持 URL 作为参数

Debian Buster:Tesseract 不支持 URL 作为参数

我正在尝试解析托管图像中的文本,但看起来我错误配置了 Tesseract。我正在使用 Debian Buster,tesseract-ocr并且libtesseract-dev安装了 Ruby 包装器。

#  $ tesseract -v
tesseract 4.0.0
 leptonica-1.76.0
  libgif 5.1.4 : libjpeg 6b (libjpeg-turbo 1.5.2) : libpng 1.6.36 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
 Found AVX2
 Found AVX
 Found SSE

终端内tesseract <URL.png> output返回Error, cannot read input <URL.png>: No such file or directory.使用 Ruby gem 会引发相同的错误消息。

安装软件包后我错过了什么吗?这文档谈到在 Ubuntu 上手动放置 traneddata 目录,是否也应该在 Debian 上完成?

目前,训练数据未随 snap 包一起提供,必须手动放置到 ~/snap/tesseract/current。

curl我可以通过使用本地路径作为参数来使其工作,但它应该支持 URL 作为参数

谢谢


编辑

我通过以下方式测试了 v4.1.1 和 v5.0.0这些说明并设置 tessdata 目录。他们都明确返回不支持 URL:

Tesseract Open Source OCR Engine v5.0.0-alpha-647-g4a00 with Leptonica
Error, this tesseract has no URL support
Error during processing.

我显然错过了一些东西,因为发行说明说它从 4.1.1 开始支持 URL

相关内容