多个 JSON 文件的 AWS-Hadoop 数据分析实现

2024-5-31 • tag-icon

我是 Hadoop 和 AWS 的新手。我已经使用 cloudera Hadoop 发行版设置了多节点（4 个 t2.large 实例）AWS EC2 集群。我已经使用 CSV 文件（例如字数统计）通过基本示例测试了环境。

现在，我的主要项目是分析 JSON 文件中的数据。我有大约 400 万个 JSON 文件，大约 60GB 数据。每个文件都有一个很大的 JSON 条目，基本上是每个文件中一条记录的所有信息。

我有点困惑如何解决这个问题。可能是将文件复制到 HDFS 并构建 Map Reduce 作业（使用 java，因为我对此很熟悉）以创建大型 CSV 文件，然后在 Hive 中从这些 CSV 创建表以供分析。因为在本地将这些文件转换为 CSV 可能需要很长时间。即使将这些文件复制到 AWS 也会很慢，但一旦复制，我就可以使用实例的计算能力。不确定这是否正确？我该如何开始？

有没有办法直接处理 JSON 或任何其他可以使该过程高效的方法？我有大约 1 个月的时间将这些数据处理成可以查询的形式，然后从那里进一步构建。

任何帮助都会非常有益。

相关内容