为什么 tesseract 将 ^L 附加到输出

Question

我假设这tesseract会在文本末尾添加一个新页面（ASCII“换页符”）字符。您可以使用以下方法将其删除：

sed -i 's/^L//' output.txt

要输入^L上述命令中的字符，请先输入Ctrl+ V，然后输入Ctrl+L。

对于 GNUsed你也可以简单地使用以下命令：

sed  -i 's/\x0c//' output.txt

作为一种更直接的方法，您可以使用-c如下选项：

tesseract -c page_separator="" example.png output txt

因此输出文件中不会有任何“页面分隔符”。

Answer 1

我假设这tesseract会在文本末尾添加一个新页面（ASCII“换页符”）字符。您可以使用以下方法将其删除：

sed -i 's/^L//' output.txt

要输入^L上述命令中的字符，请先输入Ctrl+ V，然后输入Ctrl+L。

对于 GNUsed你也可以简单地使用以下命令：

sed  -i 's/\x0c//' output.txt

作为一种更直接的方法，您可以使用-c如下选项：

tesseract -c page_separator="" example.png output txt

因此输出文件中不会有任何“页面分隔符”。

相关内容