如何使用 shell 脚本从大型语料库中过滤数据？

2024-5-16 • tag-icon

我正在尝试从大型 Twitter 语料库中提取推文，并在推文发布的特定位置进行过滤。之后，我想在推文中搜索特定的单词。我有一个命令将所有推文列为 tsv 文件： $ zless location/of/tweets.out.gz | /net/corpora/twitter2/tools/tweet2tab -i user.location text

这给了我以下输出，并用选项卡分隔： user.location tweet

现在，我只想列出来自的推文location: Amsterdam。之后，word: hallo在来自阿姆斯特丹的所有推文中搜索。使用 shell 脚本解决此问题的最佳方法是什么？

相关内容