修复 txt 文件中连续行中的连字符单词

2024-5-30 • tag-icon

我有几十个大型 txt 文件（报纸文章）和数千个连字符，这些连字符来自报纸中继续下一行的单词。有一个连字符和一个空格，然后是单词的其余部分，如这两个示例：

联合国采取行动的一种可能性

而且它可能会试图阻止纳入这一问题

有关如何解决这些问题的一些指示？

sed 's/\([[:alpha:]]\)- \([[:alpha:]]\)/\1\2/g' < file.txt > file-processed.txt

替换<letter1>- <letter2>为<letter1><letter2>.

sed 's/- //g'这比替代连字符的其他用法要不那么激进，例如13 - 4 = 9

相关内容