我有几十个大型 txt 文件(报纸文章)和数千个连字符,这些连字符来自报纸中继续下一行的单词。有一个连字符和一个空格,然后是单词的其余部分,如这两个示例:
联合国采取行动的一种可能性
而且它可能会试图阻止纳入这一问题
有关如何解决这些问题的一些指示?
答案1
sed 's/\([[:alpha:]]\)- \([[:alpha:]]\)/\1\2/g' < file.txt > file-processed.txt
替换<letter1>- <letter2>
为<letter1><letter2>
.
sed 's/- //g'
这比替代连字符的其他用法要不那么激进,例如13 - 4 = 9