处理 Tesseract 输出：删除换行符，连接各个页面

Question 1

听起来你想删除换行符之内段落，但保留它们之间段落。所以也许

... | awk -v RS= -v ORS='\n\n' '{$1=$1} 1' | ...

或者

... | perl -00 -lpe '$_ =~ s/\n/ /g' | ...

Answer

听起来你想删除换行符之内段落，但保留它们之间段落。所以也许

... | awk -v RS= -v ORS='\n\n' '{$1=$1} 1' | ...

或者

... | perl -00 -lpe '$_ =~ s/\n/ /g' | ...

Question 2

您可以使用 ( 替换换行符为空格參考)：

sed ':a;N;$!ba;s/\n/ /g' txtfile.txt

因此，您可以合并所有文件并使用以下命令删除所有换行符：

sed ':a;N;$!ba;s/\n/ /g' *txt > outputfile.txt

Answer

您可以使用 ( 替换换行符为空格參考)：

sed ':a;N;$!ba;s/\n/ /g' txtfile.txt

因此，您可以合并所有文件并使用以下命令删除所有换行符：

sed ':a;N;$!ba;s/\n/ /g' *txt > outputfile.txt

相关内容