删除仅作为终端中文本文件中第一个单词出现的指定单词

删除仅作为终端中文本文件中第一个单词出现的指定单词

我正在处理 JSON 格式的高音文本数据,并将其存储在文本文件中。我对转发不感兴趣,我创建了一个可以提取大部分文本的解析器,但不知何故也出现了一些转发。所以我想知道这个问题的快速解决方案,即删除以 RT 开头的文本。

所以文件中的文本看起来像

`"RT ...... RT ....."`

“……”是句子中的其他词。我只想删除以“RT”一词开头的行并将其保存在另一个文件中。相同的单词 RT 可能出现在不以 RT 开头的文本中间,此类文本不应被删除。我尝试使用以下命令,但我不完全确定

grep -v "RT" twitterDataset.txt > clean_RT.txt

我真的很感激这个问题的解决方案,并且对代码的解释也会很有帮助。

答案1

如果有问题的文件是纯文本,您可以执行以下操作:

grep -v "^RT" twitterDataset.txt > clean_RT.txt

这不会匹配以字符串“RT”开头的行

相关内容