存储和使用大型 JSON 数据的最佳方法是什么?

存储和使用大型 JSON 数据的最佳方法是什么?

我已经下载了书目语料库包含 10,000 个压缩的 JSON 文件,总大小约为 200GB(压缩后,解压后约为 800GB)

我没有处理如此大规模数据的经验,也没有强大的集群。我只有一台配备 i7-8700K、64GB RAM、GTX1080Ti 显卡和 10TB 存储空间的 PC。

这个数据集里有大约 8100 万个出版物。我想高效地找出它们之间的引用关系(参考文献 ID 作为每个出版物的一个字段),还需要通过某些条件(例如出版年份)进行过滤才能进行分析。

所以我想知道我的电脑是否能够对该数据集进行分析,以及完成这项工作的最佳实践是什么。如果我解析这些 JSON 文件并将它们存储在 MySQL 或 MongoDB 等数据库中(某些出版物具有很大的全文字段),这是一个好主意吗?

相关内容