为长期云存储创建冗余存档的良好做法

为长期云存储创建冗余存档的良好做法

我想创建照片、文档和其他重要内容的数字档案,并将其存储在云端(可能是 Amazon Glacier)。最好每个档案保存一年,每个档案最多 10 GB。我想确保存储和网络传输错误不会破坏任何东西,因此我想包含可靠的恢复数据开销。

您这里有推荐的最佳实践和工具吗?带有恢复数据的 RAR?将每个文件校验和与存档一起存储是否值得?还有其他建议吗?

答案1

如果你希望在备份中包含其他恢复数据,可以使用档案库类型的解决方案。您可以指定要生成的冗余/恢复数据量以及如何(如果有的话)拆分它。使用此方法的好处是它与您选择的实际备份和存储方法无关。您可以使用 zip 或 tar 或 Windows Backup 或任何其他生成文件并通过 Parchive 工具提供它们以生成其他恢复文件。

请记住,Amazon Glacier 和 S3 服务都具有生成文件校验和的能力,因此一旦您上传文件,您就可以比较本地和远程校验和,以确保文件传输没有错误。

此外,亚马逊对这个话题有这样的看法:

耐用的– Amazon Glacier 旨在为档案提供 99.999999999% 的平均年耐久性。该服务将数据冗余地存储在多个设施中以及每个设施内的多个设备上。为了提高耐久性,Amazon Glacier 会在多个设施中同步存储您的数据,然后在上传档案时返回 SUCCESS。与需要费力的数据验证和手动修复的传统系统不同,Glacier 会定期执行系统性的数据完整性检查,并具有自动自我修复功能。

这意味着你的任何一个文件被删除的概率只有 0.00000000001(1e-11)噗——在一年内。换句话说,如果您在 Glacier 中存储了 1000 亿个文件一年,那么您可能会丢失其中一个。

如果您想要额外的保证,请考虑将您的数据上传到多个 Glacier 区域或另一个地理区域的完全不同的服务提供商。

答案2

一般来说,如果您不完全信任存储介质的可靠性,您就需要引入自己的可修复冗余。

一种粗暴且快速的方法就是将所有内容上传两次。您可能不想这样做。

这很复杂,但如果你将文件分成小块,并使用以下工具创建“par2”文件快捷宝。 (这里有一个教程),那么我相信如果文件丢失了,它是可以恢复的。这通常用于提高通过 Usenet 传输和“检索”的二进制文件的可靠性(Usenet 从未真正设计用于此目的),但它可以用于任何您想要拥有这种冗​​余级别的场合。

答案3

旧 PAR 格式还有其他替代方案:DVD灾难、DAR 和pyFileFixity(这是我开发的)。但云服务当然应该有自己的数据保存系统,因为有了它们提供的存储空间,数据损坏率就会变得非常高,所以无论如何你都应该是安全的。

相关内容