在 Spark 中导入文件的最快方法？

2024-6-1 • tag-icon

我正在使用 Spark 3.0.1，Spark SQL 在 GB 数据上的性能给我留下了深刻的印象。

我试图了解在运行分析查询之前在 Spark 数据框中导入多个 JSON 文件的最佳方法是什么。

现在我尝试导入约 1.500 个 .gz 文件，每个文件都包含一个 json 结构文件。这些文件存储在 S3 存储桶中，我有一个数据管道，每隔 x 段时间就会填充这个存储桶。我们说的是 1.500 gz 文件的完整大小为 5GB，未压缩后约为 60/70GB（完整数据集）。

从 S3 导入这些文件需要大约 3 到 4 分钟，而 SQL 查询只需几秒钟。

这里的瓶颈显然是 S3。

加快这些 gz 文件的导入速度的理想方法是什么？

如有任何建议，我们将不胜感激。

谢谢你！

相关内容