以节省空间的方式存储大量大型类似文件

以节省空间的方式存储大量大型类似文件

我有很多 ~1 GB 的文件(数据库转储文件,定期获取)。现在我只是将它们全部存储在一个目录中,每个文件都经过 gzip 压缩。我们的磁盘空间不足,想继续存储旧文件。忽略花钱购买更多磁盘这一显而易见的解决方案,有没有办法以节省空间的方式存储这些文件?

每个文件都是一个数据库转储文件,每半小时提取一次,因此应该有很多重复的内容。是否有一些程序/流程可以使这更容易。我不想尝试新的文件系统。我正在使用 git 和 git-repack,但这占用了大量内存。有没有更简单一点的方法?

答案1

展望未来,您可以对数据库进行增量备份,但恢复时间会更长,而且如果需要审核,进行时间点恢复会复杂得多。

正如您所说,您现在每 30 分钟可以进行一次完整备份,您也可以每 30 分钟进行一次增量备份和完整备份,并且只保留 6 或 24 小时,并将增量备份长期保留。(理论上,如果您需要恢复速度,则很可能是灾难恢复场景,因为您需要最新的恢复速度)。

如果您对增量备份或其他备份策略有疑问,请尝试数据库堆栈交换

答案2

除了增量备份之外,您还可以将旧备份移至近线存档存储。这可能包括磁带、外部硬盘、光学介质(有注意事项)等的组合。

我的经验是,能够方便地访问工作备份就足够了。如果您需要更快地访问备份,您可以购买更多硬件或自动执行一些检索步骤以加快速度。

答案3

您可以考虑使用重复数据删除文件存储,因为您的数据应该包含大量重复信息。但是,如果您使用知名供应商的硬件解决方案,则成本将远远超过额外磁盘的成本。好消息是,有几项开源计划,其中之一是已打开。还有其他一些,但我手头没有关于它们的信息。

另一种选择是使用已经使用某种重复数据删除技术的备份软件/服务。我们目前正在使用基于 Asigra 软件的解决方案,并且每天都会备份整个 VMware 虚拟机映像,我们实现了 1:10 的数据缩减,每日保留 30 天。

相关内容