如何将终端中的文本保存为各种文本格式?

如何将终端中的文本保存为各种文本格式?

我正在使用 OCR 软件,特别是我花了一些时间使用 tesseract。我到达了可以在 Linux 终端中加载图像并让 tesseract 从图像中提取文本的位置。我现在试图弄清楚如何从终端自动将翻录的文本保存为 pdf、odf、txt 和 word 格式。

答案1

查看man 1 tesseract,似乎您可以使用以下形式的命令将其输出保存为一种或多种特定格式:

tesseract image_file output_file pdf txt

其中四个参数在一般命令概要中分别扮演FILEOUTPUTBASE和(重复两次)的角色。CONFIGFILE此命令创建两个文件,output_file.pdf并且output_file.txt.

相关内容