我正在处理 JSON 格式的高音文本数据,并将其存储在文本文件中。我对转发不感兴趣,我创建了一个可以提取大部分文本的解析器,但不知何故也出现了一些转发。所以我想知道这个问题的快速解决方案,即删除以 RT 开头的文本。
所以文件中的文本看起来像
`"RT ...... RT ....."`
“……”是句子中的其他词。我只想删除以“RT”一词开头的行并将其保存在另一个文件中。相同的单词 RT 可能出现在不以 RT 开头的文本中间,此类文本不应被删除。我尝试使用以下命令,但我不完全确定
grep -v "RT" twitterDataset.txt > clean_RT.txt
我真的很感激这个问题的解决方案,并且对代码的解释也会很有帮助。
答案1
如果有问题的文件是纯文本,您可以执行以下操作:
grep -v "^RT" twitterDataset.txt > clean_RT.txt
这不会匹配以字符串“RT”开头的行