如何使用 shell 脚本从大型语料库中过滤数据?

如何使用 shell 脚本从大型语料库中过滤数据?

我正在尝试从大型 Twitter 语料库中提取推文,并在推文发布的特定位置进行过滤。之后,我想在推文中搜索特定的单词。我有一个命令将所有推文列为 tsv 文件: $ zless location/of/tweets.out.gz | /net/corpora/twitter2/tools/tweet2tab -i user.location text

这给了我以下输出,并用选项卡分隔: user.location tweet

现在,我只想列出来自 的推文location: Amsterdam。之后,word: hallo在来自阿姆斯特丹的所有推文中搜索 。使用 shell 脚本解决此问题的最佳方法是什么?

相关内容