我正在使用 OCR 软件,特别是我花了一些时间使用 tesseract。我到达了可以在 Linux 终端中加载图像并让 tesseract 从图像中提取文本的位置。我现在试图弄清楚如何从终端自动将翻录的文本保存为 pdf、odf、txt 和 word 格式。
答案1
查看man 1 tesseract
,似乎您可以使用以下形式的命令将其输出保存为一种或多种特定格式:
tesseract image_file output_file pdf txt
其中四个参数在一般命令概要中分别扮演FILE
、OUTPUTBASE
和(重复两次)的角色。CONFIGFILE
此命令创建两个文件,output_file.pdf
并且output_file.txt
.