大规模并行网格系统备份的最佳实践

大规模并行网格系统备份的最佳实践

我在一家大公司的研究小组工作。我们在网格处理系统上做了很多工作,这个系统有很多节点(超过 200 个,我不确定具体有多少)和几个硬盘。数据超过 1000TB。

大部分数据都可以重现,但这需要时间。很多数据是存储在单独的 RCS 存储库中的代码,这些存储库可以有自己的备份,但工作副本当然位于普通用户驱动器上。

有人可以给我提供一份最佳实践文档,或者一些关于大多数公司如何保护这么多数据的资料吗?

谢谢

答案1

  1. 聘请一名备用管理员或工程师。
  2. 告诉他或她您的要求和预算。(这可能是一个迭代过程。)
  3. 按他或她说的做。

设计一个有效的备份系统来满足您的业务需求有很多事情要做。您可以将数据快照到其他磁盘,然后镜像到异地(如果您有其他站点),或者发送到磁带,或者直接从您的节点发送到磁带。在不同时间备份的数据可能存在并发问题 - 也许您的应用程序需要先导出或静止?我们不知道,您没有告诉我们。有很多技术问题和问题。

首先需要解决的是您的实际业务需求 - 您的 RTO(在数据恢复之前您可以停机多长时间)和 RPO(在备份运行之间您可以承受多少数据丢失)是多少?这是否需要成为 DR 或业务连续性计划的一部分,或者如果建筑物被烧毁,您是否不再关心您的数据?

相关内容