用于并行挖掘大量数据的网络云计算选项?

用于并行挖掘大量数据的网络云计算选项?

我有一个学校项目,我正在一个关于网络挖掘的班级里工作,我需要从某些社交媒体网站收集大量数据。我需要来自网站上大量单个主题标签的数据。我有一个 python 脚本,它通过发出连续的 HTTP 请求成功抓取单个主题标签所需的所有数据,直到它捕获指定时间范围内所需的所有记录并将它们销售到一个大型 csv 文件中。我需要针对不同的主题标签运行这个程序几千次。对于一些非常流行的主题标签,该程序需要几个小时才能运行。不过,许多主题标签会快得多。我编写了一个 bash 脚本,按顺序为每个主题标签运行 python 程序,但这将需要很长时间才能收集到所需的所有数据。

我想利用某种云计算服务,比如谷歌计算引擎、AWS 或 Azure,并行运行该程序的多个实例,这样我就可以同时收集许多主题标签的数据。也许我可以拥有大量的云机器,它们同时为不同的主题标签运行该程序。这样我就可以更快地收集我需要的所有数据。

除了几次使用 Google Compute Engine 运行只需要运行一次的简单程序外,我对云计算不是很熟悉。我尝试阅读有关实例组的文章,但我仍然不确定如何将它们用于此目的。我对 AWS 和 Azure 产品甚至不太熟悉。

解决这个问题的最好方法是什么?

答案1

在不进一步了解您的确切脚本的情况下,您可能需要一些可以运行 lambda 函数的东西:

无需担心虚拟机,按秒/千兆付费,用完即止。无需记住拆除基础设施。它只会在自己的环境中运行您的脚本,并在完成后拆除。

对于运行时间较长的脚本来说,可能会稍微贵一些,但对于运行速度快的脚本来说,应该很便宜。

相关内容