如何下载数百万个 s3 文件并动态压缩它们？

Question

目前尚不清楚您是否要保留 S3 中未压缩的对象，或者存储桶内容是否仍在变化。

您可以选择使用S3 清单。它不是即时的，但它会自动生成存储桶中的对象列表并将其写入 S3 存储桶（同一个存储桶或另一个存储桶）。您可以将此列表读入一个小脚本（无论您喜欢什么）并让它一次处理一个对象。使用 S3 CLI 拉下对象，然后使用 OS/脚本工具对其进行压缩。

我强烈建议构建一些可以检查压缩对象是否已经存在的东西，这样如果过程失败或者添加了新对象，您就可以重新启动该过程，而不必再次处理所有内容。

如果您要将压缩对象写回 S3，请考虑使用 EC2 实例或 Lambda。使用 Lambda，您可能需要使用文件流来动态压缩文件，而不是将其拉下来。您应该至少能够找到 Python 的示例，如果没有其他受支持的语言。

-- 需要注意的是，粗略计算一下这将花费多少钱。获取请求相当便宜，但数据传输出去可能会很昂贵。此外，如果您使用除标准之外的任何存储类别，则可能会产生与之相关的检索成本。

Answer 1

目前尚不清楚您是否要保留 S3 中未压缩的对象，或者存储桶内容是否仍在变化。

您可以选择使用S3 清单。它不是即时的，但它会自动生成存储桶中的对象列表并将其写入 S3 存储桶（同一个存储桶或另一个存储桶）。您可以将此列表读入一个小脚本（无论您喜欢什么）并让它一次处理一个对象。使用 S3 CLI 拉下对象，然后使用 OS/脚本工具对其进行压缩。

我强烈建议构建一些可以检查压缩对象是否已经存在的东西，这样如果过程失败或者添加了新对象，您就可以重新启动该过程，而不必再次处理所有内容。

如果您要将压缩对象写回 S3，请考虑使用 EC2 实例或 Lambda。使用 Lambda，您可能需要使用文件流来动态压缩文件，而不是将其拉下来。您应该至少能够找到 Python 的示例，如果没有其他受支持的语言。

-- 需要注意的是，粗略计算一下这将花费多少钱。获取请求相当便宜，但数据传输出去可能会很昂贵。此外，如果您使用除标准之外的任何存储类别，则可能会产生与之相关的检索成本。

相关内容