如何在 pyspark 中读取大型 zip 文件

如何在 pyspark 中读取大型 zip 文件

我在 s3 上确实有 n 个 .zip 文件,我想处理它们并从中提取一些数据。zip 文件包含一个 json 文件。在 spar 中我们可以读取 .gz 文件,但我找不到任何方法来读取 .zip 文件中的数据。有人能帮我解决如何使用 python 通过 spark 处理大型 zip 文件吗?我遇到了一些选项,比如 newAPIHadoopFile,但没有成功,也没有找到在 pyspark 中实现它们的方法。请注意,zip 文件大于 1G,有些甚至达到 20G。

相关内容