存储大量数据

存储大量数据

假设我想通过 Web 界面存储 40 TB 的数据以供频繁访问,主要是媒体文件。我应该建立 4 台计算机,每台 10 TB 吗?我应该知道哪些限制?什么才是合适的?

我说的是Linux机架服务器。

答案1

您可能需要研究 SAN 解决方案。我曾与一位拥有大量数据需求的客户合作过。他们每个月都会增加数 TB 的新用户提供数据。由于预算有限,我们选择了 RAID 5 中的廉价 SATA 磁盘,并将尽可能多的磁盘塞入 2U 服务器中。这种方法在一段时间内很有效,但随着它们不断增长,性能问题、可扩展性和管理问题也随之出现。

EqualLogic、NetApp 和其他公司的解决方案提供了非常高的可扩展性和良好的管理工具——但它们的价格也与之相匹配。

您没有指定预计使用多少带宽,但研究也提供交付服务的基于云的解决方案可能是另一种选择,特别是当您正在寻找即用即付解决方案时。

我们可以通过我们的一个合作伙伴访问 Internap 的 CDN。我们可以将数据存储在他们的系统上,然后通过他们的 CDN 进行传输。我从未询问过 40 TB 的存储空间,但我认为这不是问题。

如果您确实构建了 4 个 10TB 系统,则需要弄清楚以下问题:1) 有多少个前端服务器节点将连接到它们?2) 文件访问频率是多少?3) 您计划如何备份数据?4) 您将使用哪种连接方法(NFS、GFS 还是 iSCSI)?5) 流量/存储需求将如何随时间变化?

这些都是选择技术时非常重要的考虑因素。虽然构建 4 个 10TB 系统可能很容易且相对便宜,但如果它们在 3-5 个月内无法处理服务负载,那么您的钱就浪费了。

提示:在媒体共享网站(如果是这样的话)中,某些文件通常比其他文件更受欢迎。总内容的 10-20% 可能占总流量的 80% 以上。在这种情况下,您可能需要考虑“快速”和“慢速”存储系统。将热门内容保存在快速系统上,将存档保存在较慢的系统上。

答案2

这取决于数据的关键性、您需要什么样的吞吐量、您的预算、您适合管理的技术(或者您适合外包或学习的技术)以及其他因素。

例如,您可以购买一台相对便宜的服务器,在其中安装带有额外端口的 SAS HBA,然后安装几个驱动器机箱。在其上安装带有 iSCSI Target 软件的操作系统,这样您就拥有了一个相对便宜的 SAN。

或者,您可以购买预制的 SAN 解决方案,例如 HP 的 Lefthand 盒。这些解决方案使设置和管理变得非常简单,但需要付费。

我过去曾与 CDW 的存储专家合作过多个项目,只要他们知道你在寻找什么,他们总能帮我实现目标。拥有明确的目标并了解你的极限是成功部署 SAN 的关键因素。

答案3

帮自己一个大忙,和 Nexenta 谈谈。我刚刚构建了一个 40TB 解决方案,使用 2TB 的 SSD 来快速构建 SQL/Data,全部花费不到 95,000 英镑 - 其中包括一个高规格的 Citrix Xenserver 设置,采用 10Gbe 的 DR 配置!

答案4

您看过 gluster 了吗?它不是超级快(虽然对某些人来说是这样的),但它确实能满足您的大部分需求,而且它具有容错性和高可用性。在我看来,它是目前唯一可用的免费 HA 和 FT 集群 FS。服务器宕机,您的客户端不会注意到。客户端使用 FUSE,因此 Linux、许多其他 Unix 和一定程度的 win(我认为)支持。

而且它是免费的,但也有付费选项。它还可以使用 NFS 或 smb/cifs(但没有 HA 功能,如果您正在连接的服务器出现故障,则需要安装另一台服务器)。邮件列表存档:http://gluster.org/cgi-bin/mailman/listinfo/gluster-users

http://www.gluster.org/免费部分 http://www.gluster.com/支付部分

再说一次,正如其他人所说的那样,鉴于这是适合您的应用程序,mogilefs 和其他几个应用程序可能是最好的。

相关内容