我正在尝试从大型 Twitter 语料库中提取推文,并在推文发布的特定位置进行过滤。之后,我想在推文中搜索特定的单词。我有一个命令将所有推文列为 tsv 文件:
$ zless location/of/tweets.out.gz | /net/corpora/twitter2/tools/tweet2tab -i user.location text
这给了我以下输出,并用选项卡分隔:
user.location tweet
现在,我只想列出来自 的推文location: Amsterdam
。之后,word: hallo
在来自阿姆斯特丹的所有推文中搜索 。使用 shell 脚本解决此问题的最佳方法是什么?