我有一个项目,需要从互联网下载大约 1.2 TB 的数据,并在其上运行脚本,以便将其转换为其他最终结果。因此,我在这里看到三个问题:
- 下载:由于下载速度太慢,我无法从我的笔记本电脑下载这么多的数据。
- 存储:下载的文件必须存储在某个地方。我的笔记本电脑内存又不够,无法做到这一点(尽管它可能能够神奇地下载文件)
- 处理:下载并存储后,我需要对文件运行脚本才能获得最终结果。鉴于输入量巨大,我的笔记本电脑无法在合理的时间内完成此操作。
因此我只看到AWS作为一种选择。我研究了他们提供的一些产品,从表面上看,处理部分似乎可以由名为EC2(弹性云计算),存储可以通过称为S3、可扩展存储。
我找不到符合我要求的东西下载需要。
那么,我可以使用上述解决方案来下载数据吗?
答案1
EC2 实例基本上是运行操作系统的常规服务器,它不仅允许您执行数据处理任务,还允许您执行任何其他步骤,例如下载,特别是当下载是一项复杂任务时。
您需要配置一个 EC2 实例,永久安装S3 存储桶进入操作系统,然后创建一个脚本(例如shell脚本),定期或半定期地下载数据并将其存储在存储桶中。
一个更简单的选择是使用AWS Lambda无需启动 EC2 服务器即可将数据下载到 S3,这意味着您可以独立进行处理,并且还可以避免先将数据传输到服务器,然后再传输到 S3。
请注意,任何数据操作都会有一定的价格,因此请务必阅读 EC2 和 S3 定价政策和计算暂定成本。