修复 txt 文件中连续行中的连字符单词

修复 txt 文件中连续行中的连字符单词

我有几十个大型 txt 文件(报纸文章)和数千个连字符,这些连字符来自报纸中继续下一行的单词。有一个连字符和一个空格,然后是单词的其余部分,如这两个示例:

联合国采取行动的一种可能性

而且它可能会试图阻止纳入这一问题

有关如何解决这些问题的一些指示?

答案1

sed 's/\([[:alpha:]]\)- \([[:alpha:]]\)/\1\2/g' < file.txt > file-processed.txt

替换<letter1>- <letter2><letter1><letter2>.

sed 's/- //g'这比替代连字符的其他用法要不那么激进,例如13 - 4 = 9

相关内容