我正在做一个涉及 Twitter 数据的项目。我下载了几十万条推文并将其存储在文件中。数据以 json 格式返回,我使用的流消费者将它们转换为 python 字典,因此我将它们全部存储在文本文件中,每行一条推文,作为 python 字典。
有很多无关信息,所以我有一个 python 脚本,它将每一行作为字典读取并提取一些有用的信息。提取完数据后,最好的存储方法是什么?我将其打印回 csv 文件,但我遇到了一些问题,并且遇到过一些人,他们似乎认为这不是存储数据的最佳方式。
存储这些数据最有效的方式是什么?我需要访问它来查找模式、匹配类似项目等。我考虑使用数据库 - 这是最好的选择吗?还有其他更好的方法吗?