用于数据挖掘概念验证设置的云还是 VPS?

用于数据挖掘概念验证设置的云还是 VPS?

我们需要为 I/O 密集型数据挖掘应用在线托管一个概念验证系统。我们通常需要每个系统 100-200GB,但我们对 CPU 和带宽的要求较低。理想情况下,我们希望有一个定制的 Linux VM,我们可以克隆它、加载数据、在线运行它几周/几个月(只要客户想使用它),然后将其关闭。我们可以接受托管 VM 模板的费用,但理想情况下,我们希望按 DB 使用的磁盘空间和客户实际使用的 CPU 支付计量费用。

我查看了各种“云”和 VPS 主机,似乎大多数这些产品都面向 CPU 或流量密集型应用程序:我宁愿我们不为我们不使用的 RAM 或带宽付费。亚马逊的云似乎是最合适的,但我很困惑我们如何(如果?)托管一个常规 Linux 应用程序,该应用程序读取必须持久的常规基于文件的数据库的访问权限。我对 AWS 的理解是,只要实例不处于休眠状态,他们就会收取费用,无论客户是否在使用它,对吗?

我正在寻找类似情况的指示/建议或经验(好的/坏的)......

答案1

我认为 AWS 可能是您的更好选择之一。是的,只要 VM 正在运行,您就会为此付费,但如果您对 CPU 和 RAM 的要求不高,您可以运行一个小型实例,而且不会花费太多。

至于存储持久数据库,是的,您可以使用 EBS(弹性块存储)来做到这一点,如果您实际上没有在其上执行任何 IO 操作,则只会收取存储成本(并不多)。

答案2

为了获得更高的性能,您需要在 EBS 卷上执行软件 RAID(最好是 RAID10),并调整您的 MySQL。

没有云可以让你精确控制 CPU 和 RAM,你只能购买具有特定 RAM 和 CPU 分配量的实例。不过你可以扩大规模,不过在切换时可能需要一些停机时间。

如果您想要控制,您也可以在办公室中安装自己的服务器并让它们随意使用,因为这可以让您更好地控制并降低成本。

您还可以选择租用专用服务器并将您的客户放在那里。使用 VPS 很可能行不通,这取决于您对“I/O 密集型”的理解,因为在云和虚拟化环境中,您总是与其他人共享磁盘 I/O,并且每秒请求数可能会出现高峰和低谷。

相关内容