Amazon Glacier 是否适合存档数字媒体内容?

Amazon Glacier 是否适合存档数字媒体内容?

背景 : 内容制作团队以数字媒体格式拍摄和录制内容。这些内容可以是原始素材、转换后的视频和图像的混合。

这些内容存储在共享文件夹 (Linux Samba) 中,它有 21 TB 的存储空间,几乎已全部使用。我希望这些内容团队重新组织和清除数据。他们要求我简单地归档,而忽略了纪律的需要。这是有道理的——随着时间的推移,无论保持多少纪律,磁盘空间都会变薄。

在老领导层领导下,我们曾使用磁带驱动器进行归档。新领导层已停止该流程。他们建议将旧内容归档到 Amazon Glacier。

现在,作为存档,内容大小可能约为 2Tb。可能需要提取旧内容。频率如何?——目前我们还不知道。

无论亚马逊提供多大的带宽,我所拥有的线路最多只能达到 40 mbit/s。此外,我还被要求通过某种方式限制速度,以便同一互联网连接上的其他人不会受到传输的影响。

什么有哪些考虑因素我应该考虑到这一点,以了解 Glacier 是否适合完成这样的任务。

另外,任何可以推送的 BASH 命令行工具2 Tb+ 档案存储到 Glacier Vault 吗?

答案1

Glacier 的设计和定价是针对您认为可能需要的数据而设计的。

Glacier 的设计预期是检索不频繁且不寻常,并且数据将被存储很长一段时间。

https://aws.amazon.com/glacier/pricing/

我目前在那里存储了几十 TB 的数据,并且我强烈推荐它 - 在适当的情况下 - 所以我的观察不应被视为负面的,而只是强调你需要确保你了解产品及其预期应用。

原生 Glacier 界面非常低级。它的行为很像备份磁带或大型 tarball。您将“档案”放入“保险库”,它就像一个黑匣子。您必须保留每个档案中的内容记录,因为 Glacier 无法告诉您,就像物理查看备份磁带无法告诉您一样。

另一种使用 Glacier 的方法(我敢肯定)是通过 S3。将文件上传到 S3 存储桶,并设置存储桶的生命周期策略,以便在几天后将文件存档到 Glacier。使用此模型,S3 隐藏了原始 Glacier API 的复杂性,并且各个文件及其元数据仍然可以通过 S3 控制台和 API 看到。成本相同。

不过,要明白,使用 Glacier(无论是否通过 S3),您需要为一次恢复大量数据支付费用。

仔细算一下,你会发现,除非你有一个很多已存储的数据。

假设我存储了 180 TB/180000 GB。如果我不想为数据检索支付额外费用,我只能在任何 4 小时窗口中恢复 50 GB。

180000 × 0.05 ÷ 30 ÷ 6 = 50

180000 GB,每月 5% 的限额,30 天/否,每天 6 个时间段,每个时间段 4 小时。这对我来说很方便,因为我的文件通常小于 20 GB,而且我很少需要它们。当我需要它们时,通常是为了不紧急的研究,这样我就可以分散恢复。如果总存储量较小,比如 18 TB,我的免费恢复限额将是每 4 小时 5 GB。所以,正如我所说,请仔细考虑恢复定价模型。

可能更合适的是 S3 提供的相对较新的“不频繁访问”存储类。0.0125 美元/GB/月仍然相当合理,虽然下载费用为 0.01 美元/GB,但如果您需要恢复大量数据,成本不会大幅增加,而且没有 4 小时的等待时间,就像 Glacier 恢复一样。

https://aws.amazon.com/blogs/aws/aws-storage-update-new-lower-cost-s3-storage-option-glacier-price-reduction/

答案2

我首先要说的是首先,估算一下您的价格。基本费率为 0.007 美元/GB/月,不包括传输费。

然后看看如何从 Glacier 取回数据。作业请求可能需要几个小时,而且数据仅在特定时间内可用。

AWS Glacier 常见问题解答

这是我在搜索“glacier data bash”时发现的东西。

上传到 Glacier/S3 的示例脚本

我使用 S3 为我的客户(超过 100 个)进行异地备份。我曾考虑过使用 Glacier,因为它更便宜,但数据检索时间太长,我无法忍受。如果我的一个站点出现问题,我需要从 S3 获取文件,我现在就需要它,而不是 4 小时后。

相关内容