如何下载 S3 公共数据集的副本?

如何下载 S3 公共数据集的副本?

我天真地以为我可以做类似的事情

s3cmd sync s3://snap-d203feb5 /var/tmp/copy

但我似乎对如何做这件事有错误的想法。我甚至无法让一件简单的事情发挥作用;

vnix$ s3cmd ls s3://snap-d203feb5
Bucket 'snap-d203feb5':
ERROR: Bucket 'snap-d203feb5' does not exist

我猜我的标识符不是“存储桶”,而是“公共数据集”。我如何从一个转到另一个?我必须启动一个 EC2 实例并为此创建一个存储桶吗?怎么做?说明位于http://docs.amazonwebservices.com/AWSEC2/latest/UserGuide/using-public-data-sets.html似乎假设我想使用 EC2 实例中的数据,但在这种情况下,我只想浏览一下,至少作为一个开始。

顺便说一句,复制/粘贴“美国快照 ID”会导致 Python 出现严重的回溯;他们发布的 ID 带有奇怪的 Unicode(我猜)破折号,无法直接复制/粘贴。我复制时出现错误了吗?其中的“US”有什么意义?我不能在北美以外使用这些数据吗?

答案1

公共数据集不托管在亚马逊 S3因此,它们被提供为Amazon 弹性块存储 (EBS)快照。虽然这些快照实际上存储在 S3 上,但无法直接访问此类快照,而是需要创建一个新的EBS 卷并将其附加到亚马逊 EC2您可以自行决定进一步处理。

当然,浏览数据集是一个合理的用例,但不幸的是,你目前无法避免使用 EC2 实例和 EBS 卷 - 请参阅部分怎么运行的详情请见:

部分公共数据集以 Amazon Elastic Block Store (Amazon EBS) 快照的形式免费托管在 Amazon EC2 上。Amazon EC2 客户可以通过创建自己的个人 Amazon EBS 卷来访问这些数据,使用公共数据集快照作为起点。然后,他们可以使用自己的 Amazon EC2 实例直接访问、修改和执行这些卷上的计算 [...]

要开始使用 AWS 上的公共数据集,只需执行以下三个简单步骤:

  1. 注册一个 Amazon EC2 账户。
  2. 启动 Amazon EC2 实例。
  3. 使用上面目录中列出的快照 ID 为您选择的快照创建 Amazon EBS 卷。

您已经链接的文档中解释了如何详细执行这些步骤,即启动实例创建公共数据集卷

一旦您像这样可用,您当然可以将数据集存储在您的 S3 存储桶中。

相关内容