大公司如何备份数据?

大公司如何备份数据?

处理大量数据的公司(例如 Google 或 Facebook)如何备份所有内容?

根据这个Google 平台维基百科上的一篇文章称,谷歌估计有 450,000 多台服务器,每台服务器的硬盘容量都超过 80 GB。这是非常大的数据量。他们真的会为每 1 GB 数据保留 1+ GB 的备份吗?

答案1

这取决于你的目的是什么。

如果您正在寻找灾难恢复备份(服务器爆炸、数据中心烧毁等),那么简短的回答是他们可能根本不做备份。我们有一个处理敏感政府数据的客户,他们的部分任务是要求我们不允许进行备份或备份到可移动媒体。我们被允许实时复制到 DR 站点,仅此而已。两个站点都受到相同级别的物理和逻辑安全保护。这里的问题是,如果我在站点 A 上搞砸了什么,那么它会几乎立即复制到站点 B。

如果您从数据完整性的角度谈论备份(例如,您不小心删除了 Customers 表,并且它已经复制到 DR 站点),那么大型磁带库中的 LTO-5 磁带通常是最佳选择。每盘磁带最多 3TB,磁带库中有多个磁带,您可以快速备份大量数据(这里的快速指的是 Mbps,备份 25TB 的数据可能仍需要很多很多小时)。

任何像样的备份套件都会进行高压缩和重复数据删除,从而大大减少所需的存储空间。我曾经看到过一个压缩和重复数据删除的 Exchange 备份工具的估算,声称其比率为 15:1(15GB 数据存储在 1GB 备份中)。

我非常怀疑谷歌是否会费心备份他们的搜索引擎数据,因为大多数数据都是可替换的,并且分布如此广泛,以至于如果他们丢失了哪怕很大一部分,甚至是整个数据中心,系统仍可以通过故障转移 BGP 路由保持在线。


事实上,看起来谷歌确实将大量数据备份到磁带上,这并不完全是我所期望的:

Google 磁带库的一部分

答案2

他们的大部分数据都存储在自己的 GFS 文件系统中,而 GFS 要求每个 64 MB 块至少有三个副本组成一个文件(GFS 使用 64 MB 块)。话虽如此,我认为他们不会费心备份,因为他们每个文件至少有三个副本,并且只需将数据从剩余的两个好副本中的任何一个复制到新节点,就可以快速替换故障节点上的块。

如需了解更多信息,请查看http://labs.google.com/papers/gfs.html

答案3

farseeker 的回答很好,但我认为可以从这个角度来思考,以澄清问题:您要恢复什么?是为了 DR 吗?需要多少恢复时间?例如,假设您的公司依赖于 25 TB 的 sql server 数据库。如果出现数据故障或错误(表丢失、数据库损坏等),CTO 希望能够在一小时内恢复数据库。如果站点发生故障,则需要 2 小时。

从表面上看,这听起来很难,但并非不可能。由于您知道您的备份策略必须在一小时内恢复,您知道您不会恢复完整备份,因此您必须与 dba 团队合作,以确保数据库被划分为可管理的块。您还将频繁进行跨日志备份。对于 DR,应该考虑复制策略(可能是延时版本,其中日志数据实时复制但不应用)。正如 farseeker 所说,这取决于目的,而目的应该是进行某种形式的恢复。

相关内容