资源有限的小型组织如何对其数据备份系统进行恢复测试?
当面对全面恢复测试所涉及的现实情况时,“测试您的备份!”的哄骗似乎是不现实的,而不会影响主线系统。
假设该组织没有价值数万美元的备用服务器容量来分配给临时启动完整的测试环境以验证夜间备份是否可恢复。
有没有办法证明第二次购买所有主线硬件是合理的,只是为了进行年度恢复测试,但除此之外,它一直放在存储中,处于关闭状态并且不使用?
在有关媒体恢复测试的其他 Server Fault 讨论中,有人建议使用单独的磁带驱动器来确认该媒体可在另一个设备中使用。
对于只有几台服务器和一个生产磁带驱动器的小型站点,似乎很难证明花费数千美元购买额外的 LTO-7 磁带驱动器以及为与之配套的备份软件购买额外的许可是合理的,只是将它用于每年一次的媒体恢复/测试环境验证过程,然后把它放在架子上,直到明年的测试过程才使用它。
答案1
测试备份主要是为了测试恢复过程这样,当您处于危机情况时,您就会确切地知道该做什么;当每个人都惊慌失措时,您就会有能力、有信心、冷静,并且确切地知道该做什么以及恢复大概需要多长时间等等,因为到那时,恢复备份就成了例行事件。
你可能想做的第二件事是测试数据完整性,一旦恢复了关键数据,是否可以恢复生产?没有任何损坏或不完整?
您可以而且可能应该一次测试一小部分。只有掌握了基础知识后,您才应该尝试恢复整个数据中心。
例如,如果您备份了文件系统和网络共享,那么合适的测试就是在备用位置恢复特定目录,并将文件大小、哈希值和权限与原始文件进行比较。
下次你需要克隆一个数据库进行测试时,恢复来自备份的生产数据库。
如果需要,请在虚拟机上执行“裸机”操作系统恢复。
但备份和恢复只是更大的灾难恢复策略和业务连续性计划的一个方面。
当您的当前地点因自然灾害(火灾、洪水、飓风等)而消失时,您的企业将采取什么措施?它是否可以继续从其他现有地点运营,或者您的地点是唯一的地点,企业会破产还是会用保险金来租用紧急办公室/集装箱?
这是几年前某家公司的 BCP 策略:与 HP(当时可能是 IBM)签订合同,每年一次提供集装箱数据中心以进行完整的数据中心灾难恢复测试,并在发生严重灾难时处于待命状态。
该公司只有 1 个办公设施,只在场外录制磁带(或者可能是磁带机器人),其他一切都在内部进行。当时的想法是,租用临时家具齐全的办公空间、获得互联网连接和重新路由电话号码、获得台式机和打印机等,这些大部分都是商品,而且很容易安排。但 IT 方面则稍显逊色。双数据中心的成本效益计算并不理想。
因此,最初每 6 个月一次,但后来每年一次,他们确实做了完整的 BCP 测试,但在临时租用的硬件上:部署 VMWare、恢复备份服务器、使用 AD 域控制器恢复 VM、邮件服务器、数据库和应用程序服务器以及文件共享。
更现代的 BCP 策略可以基于云,并且同时具有在线的异地备份副本,并且您也可以在云中测试 DR 恢复,如果您只需要几天时间,那么即使相当多的 VM 也不会花费太多。
答案2
套用一句老话
灾难已定,恢复还不彻底
简而言之,备份和恢复测试是绝对必要的。要制定良好的备份和恢复计划,我想强调以下几点:
- 明确向管理层传达定期恢复是真正的需要。这往往是最困难的部分,因为管理层认为任何没有直接、立竿见影的利益的东西都是多余的。可悲的现实是他们的数据处于危险之中,他们需要明白,定期恢复虽然需要花费相关成本,但却是一项值得的投资。
- 尽力而为避免专有二进制文件用于存储备份:它们很难被检查,并且几乎无法提供部分恢复的可能性。强烈建议使用开放的、可检查的文件格式(如
tar
),或者更好的是,使用rsync
(或类似工具)对数据进行文件系统级备份。使用此类工具,您可以非常轻松地检查备份,并一目了然地了解所有(或大多数)数据是否存在/可访问。 - 为了快速恢复,尝试得到一个二值图像(通过快照)您的关键虚拟机。这还有一个额外的优势,就是只需在配备兼容虚拟化软件的任何工作站上导入/启动它,即可立即进行检查(如今,所有主流虚拟化平台都有免费试用版,非常适合这种“廉价”恢复)
- 对于数据库,使用适当的转储工具并在虚拟机中恢复它,然后要求单个用户使用恢复的数据库并进行快速检查,以查看应用程序是否正常运行以及是否存在最新数据(即昨天的数据)
- 当你的备份和恢复过程正常时,记录它:当出现问题时,您将有一个非常明确的操作计划可供遵循,从而减少压力并增加成功的机会。
为了快速、经济高效地恢复,充分利用临时虚拟机、在廉价硬件上运行(如:退役服务器或工作站)至关重要。如果磁盘空间是个问题,请广泛使用精简配置。如果可用 RAM 是个问题,请每次仅恢复一小部分 VM 子集(甚至单个 VM)。
答案3
For a small site with only a few servers and a single production tape drive, it seems hard to justify buying an additional LTO-7 tape drive for thousands of dollars and additional licensing for the backup software to go with it, just to use it for a once-per-year media restore / test environment verification process and then stick it on a shelf and don't use it until next year's test process.
大多数公司实际上并没有这样做。原因是他们认为,万一发生彻底而灾难性的损失,他们需要更换备份硬件,他们可以购买所需的硬件并在几个小时内(以一定价格)获得它。因此,您的计划不一定需要包括购买备用备份硬件、软件、许可证等。