如何存储 250TB 的数据并制定备份/恢复计划?

如何存储 250TB 的数据并制定备份/恢复计划?

我对这个话题真的很陌生,所以对于这些愚蠢的问题深表歉意。

我有一个学校项目,我想知道如何存储 250TB 的数据,其生命周期为 18 个月。这意味着每条记录都存储 18 个月,这段时间过后就可以删除。

有两个问题:

  1. 存储数据
  2. 备份数据

由于数据量很大,我可能需要将数据磁带和硬盘结合起来。我希望能够“快速”访问 3 个月前的数据,因此磁盘上大约有 42TB。我真的不知道应该使用什么 RAID,或者有没有比结合磁盘和数据磁带更好的解决方案?

感谢任何建议、文章或任何东西。我迷路了。

答案1

250TB 的数据量很大。我将举例说明如何在企业中完成这项任务,这将与预算密切相关(因为我假设您希望以低廉的价格完成这项任务),但不会过分关注寻找最佳免费产品来完成这项工作。

仅供参考——我是以存储领域和备份/灾难恢复领域 8 年从业经验的专业人士身份撰写本文的。

我觉得这个学校项目更多的是写下如何去做,而不是真正去做?

首先是存储。

由于您没有提到任何特定的可用性或冗余要求,我建议构建一个基本的磁盘阵列数组“近线“3TB SATA 磁盘。根据您估计的 42TB 在线容量,忽略 RAID 开销,您至少需要 14 个这样的磁盘。例如,如果您选择RAID-6对于 16 个磁盘的 RAID 组大小,您至少需要 16 个磁盘才能获得 42 TB 的可用空间,而且您仍然没有热备用磁盘。除非我对您的可靠性、性能、冗余度和可用性要求有了更好的了解,否则我无法推荐其他类型的磁盘、RAID 类型或控制器。

在其最简单的形式中,您可以使用相当便宜的商品硬件和 Linux 以及一些开源工具来构建这样的阵列,例如逻辑卷管理器自由纳斯开放文件管理器等等——除此之外,您还开始进入昂贵的企业存储空间。

还请记住,使用廉价的商品硬件来执行此操作不会考虑磁盘之外的其他冗余问题(电源,控制器,操作系统等)。

在企业领域,我假设您需要强大的读/写性能和高可用性。例如,您可以使用具有高可用性集群冗余控制器的 NetApp Enterprise 存储阵列。连接到这些磁盘的抽屉中将有 24 个 600gb 15k rpm SAS 磁盘。要从这样的设置中获得 42tb,这将表现得非常好,并且具有高可用性/冗余性,您需要(假设 64 个大 NA 聚合,大小限制超过 16tb)一个包含大约 5 个 16 磁盘 raid 组的聚合(如果您配置为默认 RAID6-DP raid 级别)。

这意味着 4 个存储架上至少有 80 个 15k RPM 600gb SAS 磁盘,并连接到冗余阵列。

此时,您需要机架和一些强大的电源和冷却系统,并且您的预算远远超过 20 万美元。

现在进行归档。

你有很多选择,有无数的产品和方法可以用来完成这部分任务。因此,我将从使用我知道可以很好地完成这项工作的特定应用程序的角度来写这篇文章,IBM 的 Tivoli 存储管理器(TSM)。我还假设您没有任何异地灾难恢复要求,只需要存储大量数据,而此时磁盘已经变得太昂贵了。

因此,要设置 TSM,您需要另一台服务器,以及一些磁带驱动器和/或自动磁带库(亚特兰大)。

装载数据的服务器将有一个 TSM 客户端,您可以根据需要安排标准备份作业或归档作业。可以编写脚本或以其他方式设置此计划作业以将数据归档到磁带,然后将其从磁盘中删除 - 使其在磁带上离线可用。例如,您可以让脚本将任何超过 90 天的数据归档到磁带,然后将其删除。这是另一个有无数方法可以完成此任务的领域。

至于硬件方面,LTO 磁带可能是最佳选择,LTO-5 每盒磁带可容纳约 1.5 TB 的未压缩数据。因此,由于您需要将超过 200 TB 的数据存储在磁带上,其余约 50 TB 的数据存储在磁盘上,因此您需要至少 140 盘磁带来完成这个项目。

总结

因此,我们拥有某种存储阵列和“备份基础架构”。假设所有这些生命周期的事情都发生在一台服务器上。您需要一种方法将它们联系在一起。磁盘是通过 SAN 连接到服务器吗?通过网络?您将使用什么协议?所有这些决定都会影响您需要的硬件类型。仅从磁带要求来看,您可能至少需要一个小型 ATL,这几乎可以保证您需要光纤通道存储区域网络,以及 SAN 交换机、适配器等。您需要在此基础上建立网络基础设施来满足任何类型的网络通信要求。

我写得越多,就越意识到这个项目不可能不现实,我写得越来越不具体。请记住,这篇文章是基于许多疯狂的假设和非常保守的估计而写的——TL;DR 版本是——你需要大量的硬件、大量的专业知识和大量的资金才能完成这项工作,即使以最不可靠、最便宜的方式完成。如果您需要更多帮助或信息,请随时联系我。

答案2

由于这是一个学校项目,我假设您不需要实际构建它,只需将其规范化即可。无论如何,您都应该阅读以下两篇文章:

PB 级预算 v2.0:揭示更多秘密

为什么你不应该建造一个 Backblaze Pod

相关内容