我正在使用 Spark 3.0.1,Spark SQL 在 GB 数据上的性能给我留下了深刻的印象。
我试图了解在运行分析查询之前在 Spark 数据框中导入多个 JSON 文件的最佳方法是什么。
现在我尝试导入约 1.500 个 .gz 文件,每个文件都包含一个 json 结构文件。这些文件存储在 S3 存储桶中,我有一个数据管道,每隔 x 段时间就会填充这个存储桶。我们说的是 1.500 gz 文件的完整大小为 5GB,未压缩后约为 60/70GB(完整数据集)。
从 S3 导入这些文件需要大约 3 到 4 分钟,而 SQL 查询只需几秒钟。
这里的瓶颈显然是 S3。
加快这些 gz 文件的导入速度的理想方法是什么?
如有任何建议,我们将不胜感激。
谢谢你!