我正在使用 Google Cloud,在其中一个存储桶 (GCS) 中,我有一个文件夹,其中包含子文件夹,每个子文件夹包含大约 600MB 到 1.5GB 的 zip 文件。如果我必须给出 zip 文件的数量,我会说它们大约有 2000 多个 zip 文件。
每个 zip 文件都有大小不一的 CSV 文件。我必须解压每个文件,然后读取 csv 文件并对它们执行操作。我的问题是我无法解压存储桶本身中的文件。现在,通过 shell 脚本,我一次将一个子文件夹复制到我当前的工作目录,解压它,然后写回到 GCS 中的存储桶并删除旧的解压数据等等。我一次只处理一个子文件夹,因为如果我尝试一次性复制所有内容,我当前的工作目录将耗尽空间,每当我获得新数据时,我都需要执行上述活动,并且获取新数据会很频繁,有没有更好或更智能的方法来解压存储桶(GCS)中的文件。