处理完的数据如何保存?

处理完的数据如何保存?

我正在做一个涉及 Twitter 数据的项目。我下载了几十万条推文并将其存储在文件中。数据以 json 格式返回,我使用的流消费者将它们转换为 python 字典,因此我将它们全部存储在文本文件中,每行一条推文,作为 python 字典。

有很多无关信息,所以我有一个 python 脚本,它将每一行作为字典读取并提取一些有用的信息。提取完数据后,最好的存储方法是什么?我将其打印回 csv 文件,但我遇到了一些问题,并且遇到过一些人,他们似乎认为这不是存储数据的最佳方式。

存储这些数据最有效的方式是什么?我需要访问它来查找模式、匹配类似项目等。我考虑使用数据库 - 这是最好的选择吗?还有其他更好的方法吗?

答案1

如果它只是密钥对存储,显然nosql 风格数据库运行良好 - Twitter 确实使用这些数据库,如果你需要处理很多结构非常少的数据。你可能使用传统的关系数据库管理系统或嵌入sqlitedb如果有多个简单的密钥对存储并且有关系的结构化数据。

这也有助于理解平面文件存储(没有事务日志或结构)、nosql(没有) 和传统数据库(体积庞大,可扩展性较差,但易于理解且通常速度相当快)。对于一小组未更新的数据,它们中的任何一个都应该可以工作

相关内容