上传大量文件到 S3

上传大量文件到 S3

我有大约 100 万张图片(按目录组织)需要导入 S3。我开始使用 s3sync.rb,但由于它是为同步而构建的,因此会创建大量额外文件来跟踪内容。我不需要也不想要这个 - 只需上传一次即可。

接下来我尝试了 s3cmd(python 版本),它有一个 --recursive 选项,用于简单的 put。问题是它会尝试预先处理所有上传文件(至少在调试模式下是这样的),这对于我拥有的文件数量来说不起作用。

我正在考虑尝试像 bucket explorer 或 s3fox 这样的工具,但我担心浪费大量时间并且只能完成一半。

请问有什么建议吗?

编辑:我知道一些安装 s3 的选项,但对 s3fs 的体验并不好。jungledisk 能很好地处理大量文件吗?而且这些程序往往会创建我不想要的额外文件。

答案1

我还没有尝试过这个特定的存储选项,但是网络鸭支持 s3,具有同步选项,并且对我来说总体来说非常强大。

答案2

您可以...吗向他们发送便携式存储设备上面有你的数据吗?

答案3

您可以尝试s3sync.rb使用这些--no-md5选项运行。使用该选项,仅比较修改日期。

我使用 Jungledisk 备份了大量文件(约 20k),它的表现非常好。尽管它确实创建了一个单独的数据库来保存已上传的文件(并执行重复数据删除)。据我所知,与已备份的所有文件的大小相比,备份数据库的大小微不足道。

无论您如何上传内容到 S3,都会有“额外的文件”,因为 S3 不存储目录,它仅支持键和节点,因此目录信息必须单独保存。

相关内容