这个问题的灵感来自https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data还有其他类似的问题,但没有一个具有相同的标准。
这是两个合二为一的问题。
- 如何保存财务/重要记录,使其不被火灾所影响并且可以保存数十年?
- 假设我想存储家庭照片/视频,并希望人们 100 年后仍能找到它们并使用它们。该怎么做?
标准
- 长期意味着 30 年以上保证。平均 100 多年。[如果这不切实际,请使用最接近的解决方案]
- 高容量意味着几 TB。
- 答案可以是“不妥协/工业”解决方案,也可以是针对家庭办公室/小型企业用户的实用解决方案。
- 媒体在这段时间内不会处于活动状态。(即,如果您使用硬盘驱动器,它们将不会旋转)。
- 此外,我们并不指望需要阅读这些档案。它们只是为了应急或“为子孙后代”而存在的。
- 不需要维护(如果可能的话)。
我的想法:
- 在我看来,CD-R/DVD-R 是一种糟糕的备份介质,即使是在短期内。它们似乎非常脆弱,即使在完好无损的情况下,也似乎会在很短的时间内丢失数据。
- 我忍不住想,将数据存储在几块 1TB 硬盘上,然后期望它们在十年或二十年后能够正常运转,这是一个糟糕的想法。我错了吗?
- 工业磁带驱动器似乎是一个可行的选择?
答案1
简短回答
由于熵(也称为死亡!),不可能保证较长的时间范围。数字数据会衰减和消亡,就像宇宙中的任何其他事物一样。但它可以减慢速度。
目前还没有万无一失且经过科学验证的方法可以保证 30 年以上的冷数据存档。一些项目旨在做到这一点,比如永恒现在博物馆的罗塞塔磁盘项目,尽管它们仍然非常昂贵并且数据密度较低(约 50 MB)。
同时,您可以使用经过科学验证的弹性光学介质进行冷藏,例如松下的 HTL 型蓝光光盘或 Verbatim Gold Archival 等档案级 DVD+R,并将它们放在密封的盒子中,放在柔软的地方(避免高温)并避开光线。
还冗余:制作多个数据副本(至少 4 个),并计算哈希值以定期检查一切是否正常,每隔几年就应该在新磁盘上重写数据。此外,使用大量的错误修正码,它们将帮助您修复损坏的数据!
长答案
为什么数据会随着时间而损坏?答案就一个词:熵这是宇宙中主要的、不可避免的力量之一,它使得系统随着时间的推移变得越来越无序。数据损坏就是:比特顺序混乱。换句话说,宇宙讨厌你的数据。
对抗熵就像对抗死亡:你永远不可能成功。但是,你可以找到延缓死亡的方法,就像你可以减缓熵一样。你也可以通过修复腐败来欺骗熵(换句话说:你无法阻止腐败,但如果你事先采取措施,你可以在腐败发生后进行修复!)。就像任何关于生死的事情一样,没有灵丹妙药,也没有一劳永逸的解决方案,最好的解决方案需要你直接参与数字策展您的数据。即使您正确地执行了所有操作,也无法保证数据的安全,但您只能最大限度地提高数据安全的可能性。
现在有个好消息:现在有相当有效的方法来保存你的数据,如果你结合高品质存储介质, 好的档案/策展策略: 你应该针对故障的设计。
什么是好的管理策略?让我们先说清楚一件事:你会发现大部分信息都是关于备份的,而不是关于归档的。问题是大多数人会把备份策略的知识转移到归档上,因此现在人们经常听到很多误解。事实上,存储数据几年(备份)和尽可能长时间存储数据(至少几十年)(归档)是完全不同的目标,因此需要不同的工具和策略。
幸运的是,研究和科学成果相当多,所以我建议参考那些科学论文,而不是论坛或杂志。这里,我将总结一些我读过的内容。
此外,要警惕索赔和非独立科学研究,声称这样或那样的存储介质是完美的。还记得著名的 BBC 末日审判项目吗:“数字版末日审判书保存了 15 年,而不是 1000 年”. 始终使用真正独立的论文仔细检查研究,如果没有,则始终假设存储介质不适合存档。
让我们澄清一下您在寻找什么(从您的问题开始):
长期存档:您想保留明智的、不可复制的“个人”数据的副本。归档根本不同于备份, 作为这里解释得很好:备份用于定期更新的动态技术数据,因此需要刷新到备份中(即操作系统、工作文件夹布局等),而存档则静止的您可能会只写一次并且只是读从时不时。档案用于保存非时间数据,通常是个人的。
冷藏:您希望尽可能避免维护存档数据。这是一个很大的限制,因为这意味着介质必须使用能够长时间保持稳定的组件和写入方法,无需您进行任何操作,也不需要连接到计算机或电源。
为了便于分析,我们首先研究冷藏解决方案,然后研究长期存档策略。
冷藏介质
我们上面定义了良好的冷藏介质应该是什么样的:它应该能够长时间保留数据而无需任何操作(这就是为什么它被称为“冷”:您可以将它存储在壁橱中,而无需将其插入计算机来维护数据)。
纸似乎是地球上最有弹性的存储介质,因为我们经常能找到来自古代的非常古老的手稿。然而,纸张存在重大缺点:首先,数据密度非常低(纸张上无法存储超过 100 KB 的数据,即使是微小的字符和计算机工具),并且随着时间的推移,它会逐渐退化,没有任何方法可以监控它:纸张就像硬盘一样,会遭受无声损坏。但是,虽然你可以监控数字数据的无声损坏,但你无法监控纸张。例如,你不能保证一张图片在短短十年内会保持相同的颜色:颜色会退化,而且你无法找到原始颜色。当然,你可以策展如果您是图像修复专业人士,您可以手动恢复您的照片,但这非常耗时,而使用数字数据,您可以自动化这个管理和修复过程。
硬盘 (HDD)是已知到有平均寿命为 3 至 8 年:它们不仅会随着时间的推移而退化,而且注定最终会死亡(即无法访问)。以下曲线显示了所有 HDD 都以惊人的速度损坏的趋势:
浴缸曲线显示给定错误类型的 HDD 故障率的演变(也适用于任何工程设备):
显示硬盘故障率的曲线,所有错误类型合并:
您可以看到,硬盘驱动器按其故障率可分为 3 种类型:快速损坏型(例如:制造错误、质量差的硬盘驱动器、磁头故障等)、恒定损坏率型(制造精良,它们因各种“正常”原因而损坏,大多数硬盘驱动器都是这种情况),最后是耐用型,它们的寿命比大多数硬盘驱动器长一点,最终会在“正常”硬盘驱动器之后很快损坏(例如:幸运的硬盘驱动器、使用不频繁的硬盘驱动器、理想的环境条件等)。因此,您的硬盘驱动器肯定会损坏。
为什么硬盘驱动器经常坏掉?我的意思是,数据写在磁盘上,磁场可以持续数十年才会消失。硬盘驱动器坏掉的原因是存储介质(磁盘)和阅读硬件(电子板+喷丝头)耦合:它们无法分离,您不能直接提取磁盘并用另一个磁头读取它,因为首先电子板(将物理数据转换为数字)对于几乎每个 HDD 来说都是不同的(即使是同一品牌和参考,也取决于原产工厂),并且旋转磁头的内部机制非常复杂,以至于现在人类不可能完美地将旋转磁头放置在磁盘上而不损坏它们。
此外,众所周知,HDD消磁如果不使用,数据会随着时间的推移而丢失(包括 SSD)。因此,您不能只将数据存储在硬盘上,将其存储在壁橱中,并认为它会在没有任何电气连接的情况下保留数据:你需要每年或每两年至少将硬盘插入电源一次。因此,HDD 显然不适合用于冷存储。
磁带:它们通常被描述为满足备份需求的首选,也可用于存档。磁带的问题在于它们非常敏感:磁性氧化物颗粒很容易因阳光、水、空气、划痕而变质,随着时间或任何电磁设备而消磁,或者随着时间的推移而脱落,或者打印这就是为什么它们通常只由数据中心的专业人员使用。此外,从未证明它们可以保留数据超过十年。那么,为什么经常建议使用它们进行备份?因为它们曾经很便宜:在过去,使用磁带的成本比使用 HDD 便宜 10 到 100 倍,而且 HDD 的稳定性往往比现在低得多。因此,主要建议使用磁带进行备份,因为成本效益,而不是因为弹性,这才是我们在存档数据时最感兴趣的。2023 年更新:LTO 是一种磁带的开放标准,现已广泛传播,支持标准化 LTFS 文件系统的 LTO5+ 驱动器可供消费者使用,尤其是以翻新价格,所以我现在推荐使用 LTO 驱动器而不是光盘,请参阅下面的其他回答。
CompactFlash 和安全数字 (SD) 卡非常坚固耐用,能够在灾难条件下生存。
《数码相机购物者》杂志发现,大多数相机中的存储卡几乎坚不可摧。五种存储卡格式经受住了煮沸、踩踏、清洗和浸泡在咖啡或可乐中的考验。
然而,与任何其他磁性介质一样,它依靠电场来保留数据,因此如果卡没电了,数据可能会完全丢失。因此,它不是冷存储的完美选择(因为您需要偶尔重写卡上的全部数据以刷新电场),但它可以成为备份和短期或中期存档的良好介质。
光学介质:光学介质是一类依靠激光读取数据的存储介质,如 CD、DVD 或蓝光 (BD)。这可以看作是纸张的进化,但我们在非常小的尺寸上写入数据,因此我们需要一种比纸张更精确、更耐用的材料,而光盘正是这样的材料。光学介质的两个最大优点是存储介质与读取硬件分离(即,如果您的 DVD 读取器出现故障,您可以随时购买另一个读取您的光盘),并且它基于激光,这使得它具有通用性和面向未来性(即,只要您知道如何制造激光,您就可以随时对其进行调整,通过模拟读取光盘的位,就像CAMILEON 为 BBC 末日审判项目所做的工作)。
与任何技术一样,新迭代不仅提供更大的密度(存储空间),而且还提供更好的纠错能力,以及更好的抗环境衰减能力(并非总是如此,但一般来说如此)。关于 DVD 可靠性的第一次争论是在 DVD-R 和 DVD+R 之间,即使 DVD-R 如今仍然很常见,但 DVD+R 被认为是更可靠和精确的。现在有专门为冷藏而制造的档案级 DVD 光盘,据称它们至少可以保存 20 年而无需任何维护:
Verbatim Gold Archival DVD-R [...] 在德国著名杂志 c't(c't 16/2008,第 116-123 页)的全面长期压力测试中被评为最可靠的 DVD-R [...] 最低耐用性为 18 年,平均耐用性为 32 至 127 年(25C,50% 湿度)。没有其他光盘能接近这些值,排名第二的 DVD-R 最低耐用性仅为 5 年。
此外,一些专门从事非常长期 DVD 存档并广泛营销,如 Millenniata 的 M-Disc 或 DataTresorDisc,声称它们可以保留数据超过 1000 年,并经过验证一些(非独立)学习(自 2009 年起)不太科学的人。
这一切似乎都很有希望!不幸的是,没有足够的独立科学研究来证实这些说法,而且现有的少数研究也并不那么热情:
经过超过 2000 小时(约 83 天)的测试,湿度(80% RH)和温度(80°C)加速了多张 DVD 的老化,并定期检查数据的可读性:
译自法国数字数据档案馆 (Archives de France),研究始于 2012 年。
第一张图显示 DVD 的性能下降趋势缓慢。第二张图显示 DVD 的性能下降曲线迅速。第三张图显示特殊的“长期使用”DVD,如 M-Disc 和 DataTresorDisc。我们可以看到,它们的性能与宣传不符,低于或与标准的非档案级 DVD 相当!
然而,M-Disc 和 DataTresorDisc 等无机光盘有一个优点:它们对光降解相当不敏感:
使用光照 (750 W/m²) 进行 240 小时加速老化:
这些结果非常出色,但 Verbatim Gold Archival 等档案级 DVD 也能达到同样的性能,而且光线是物体最可控的参数:将 DVD 放入封闭的盒子或壁橱中非常容易,从而消除光线的任何可能影响。获得一张对温度和湿度比光线更具有弹性的 DVD 会更有用。
该研究小组还研究了蓝光市场,以了解是否有任何品牌拥有良好的长期冷藏介质。以下是他们的发现:
在与 DVD 相同的参数下,湿度和温度加速了多个蓝光品牌的老化:
对多个蓝光品牌进行光加速老化测试,参数相同:
总之,最好的蓝光光盘(松下)在湿度+温度测试中的表现与最好的档案级 DVD 相似,但几乎不受光线影响!而这张蓝光光盘甚至不是档案级。此外,蓝光光盘使用比 DVD 增强的纠错码(相对于 CD,DVD 本身使用增强版),这进一步降低了丢失数据的风险。因此,似乎某些蓝光光盘可能是冷藏的非常好的选择。
事实上,一些公司已经开始研发档案级、高密度存储蓝光盘,比如松下和索尼。宣布他们将能够提供 300 GB 到 1TB 的存储空间,平均使用寿命为 50 年。此外,大公司正在转向使用光学介质进行冷藏(因为它消耗的资源少得多,因为你可以在没有任何电力供应的情况下冷藏它们),例如Facebook 开发了一套机器人系统,利用蓝光光盘作为“冷藏库”他们的系统很少访问数据。
Long Now 档案倡议:还有其他有趣的线索,例如长今博物馆的罗塞塔圆盘项目,该项目旨在用世界上所有《创世纪》被翻译成的语言编写微观规模的《创世纪》页面。这是一个伟大的项目,它首次提供了一种可以存储 50 MB 的介质,用于真正非常长期的冷存储(因为它是用碳编写的),并且具有面向未来的访问,因为您只需要一个放大镜即可访问数据(没有奇怪的格式规范,也没有技术麻烦,例如蓝光的紫光光束,只需要一个放大镜!)。然而,这些仍然是手工制作的,因此估计成本约为 2 万美元,我想这对于个人档案计划来说有点太多了。
基于互联网的解决方案: 另一种冷存储数据的媒介是网络。但是,云备份解决方案并不合适,主要原因是云托管公司可能无法像您希望的那样存活很长时间。其他原因包括备份速度非常慢(因为它通过互联网传输),并且大多数提供商要求文件也存在于您的系统中以保持在线。例如,CrashPlan 和 Backblaze 都会永久删除过去 30 天内未在您的计算机上出现过一次的文件,因此如果您想上传仅存储在外部硬盘上的备份数据,您必须每月至少插入一次 USB HDD 并与云同步以重置倒计时。但是,一些云服务提供无限期保存您的文件(当然,只要您付费)而无需倒计时,例如 SpiderOak。因此,请非常小心您选择的基于云的备份解决方案的条件和使用情况。
云备份提供商的另一种选择是在线租用您自己的私人服务器,如果可能的话,选择一个可以自动镜像/备份数据的服务器,以防硬件故障(一些甚至在合同中保证您不会丢失数据,但当然更昂贵)。这是一个很好的解决方案,首先因为您仍然拥有您的数据,其次因为您不必管理硬件故障,这是您的主机的责任。而且,如果有一天您的主机倒闭了,您仍然可以取回您的数据(选择一个可靠的主机,这样他们就不会在夜间关闭,但会提前通知您,也许您可以要求将其写入合同),然后重新托管到其他地方。
如果你不想麻烦地建立自己的私人在线服务器,并且如果你负担得起,亚马逊提供了一种新的数据存档服务,称为冰川。其目的正是长期冷存储您的数据。它为每个存档提供每年 11 个 9 的耐用性,这与其他 S3 提供的相同,但价格要低得多。问题是检索不是免费的,可能需要几分钟(从 Glacier Archive 进行标准检索)到 48 小时(从 Glacier Deep Archive 进行批量检索)。
冷库的缺点: 但是,任何冷存储介质都存在一个很大的缺陷:没有完整性检查,因为冷存储介质无法自动检查数据的完整性(它们只能在损坏发生后实施错误纠正方案来“修复”一些损坏,但无法预防或自动管理!)因为与计算机相反,没有处理单元来计算/记录/检查和纠正文件系统。而使用计算机和多个存储单元,您可以自动检查档案的完整性,并在数据档案中发生某些损坏时自动镜像到另一个单元(只要您拥有同一档案的多个副本)。
长期存档
即使使用目前最好的技术,数字数据也只能冷存储几十年(约 20 年)。因此,从长远来看,您不能仅仅依赖冷存储:您需要为数据归档过程设置一种方法,以确保您的数据可以在将来被检索(即使技术发生变化),并且最大限度地降低丢失数据的风险。换句话说,您需要成为数字策展人您的数据,在发生损坏时修复损坏并在需要时重新创建新的副本。
没有万无一失的规则,但这里有一些既定的规则策展策略,特别是一种可以让你的工作更轻松的神奇工具:
- 冗余/复制原则:冗余是唯一可以逆转熵效应的工具,这是基于信息论的原理。要保留数据,您需要复制这些数据。错误代码正是冗余原理的自动应用。然而,你还需要确保你的数据是冗余的:在不同的磁盘上保存相同数据的多个副本,在不同的介质上保存多个副本(这样,如果一个介质由于内在问题而出现故障,则不同介质上的其他介质同时出现故障的可能性很小),等等。特别是,您应该始终至少拥有 3 个数据副本,在工程学中也称为 3 模块冗余,这样,如果您的副本损坏,您可以投出简单多数票,从 3 个副本中修复文件。永远记住水手指南针的建议:
带两个指南针是没用的,因为如果其中一个出错,你永远不知道哪个是正确的,或者两个都错了。一定要带一个指南针,或者三个以上。
纠错码:这是一个神奇的工具,可以让您的生活更轻松,数据更安全。纠错码 (ECC) 是一种数学构造,可以生成可用于修复数据的数据。这更有效,因为与简单的复制相比,ECC 可以使用更少的存储空间来修复更多的数据(即制作文件的多个副本),它们甚至可以用来检查你的文件是否有任何损坏,甚至找到这些腐败在哪里。事实上,这正是冗余原理的一种应用,但比复制更巧妙。这种技术如今广泛应用于任何远程通信,如 4G、WiMax,甚至 NASA 的太空通信。不幸的是,尽管 ECC 在电信领域无处不在,但它们并不存在于文件修复中,可能是因为它有点复杂。不过,有些软件是可用的,比如众所周知的(但现在已经过时了)PAR2,DVD灾难(提供在光盘上添加纠错码的服务)和pyFileFixity(我开发它的部分原因是为了克服 PAR2 的限制和问题)。还有一些文件系统可以选择实现 Reed-Solomon,例如 Linux 的 ZFS 或 Windows 的 ReFS,它们在技术上是 RAID5 的泛化。
定期检查文件完整性:对文件进行哈希处理,并定期检查(即每年一次,但取决于存储介质和环境条件)。当您发现文件遭到损坏时,是时候使用您生成的 ECC 进行修复(如果已这样做),和/或在新的存储介质上制作新的数据副本。检查数据、修复损坏并制作新的副本是一个非常好的管理周期,可确保您的数据安全。检查非常重要,因为您的文件副本可能会悄无声息地损坏,如果您复制已被篡改的副本,最终将得到完全损坏的文件。这对于冷存储介质(例如光盘)来说更为重要,因为它们无法自动检查数据的完整性(它们已经实施了 ECC 来修复一些数据,但它们无法自动检查或创建新的副本,这是您的工作!)。要监视文件更改,您可以使用 rfigc.py 脚本pyFileFixity或其他 UNIX 工具,例如md5deep。您还可以使用以下工具检查某些存储介质(如硬盘)的运行状况硬盘哨兵或开源智能工具。
存储您的档案介质在不同的位置(至少在屋外保留一份副本!)以避免洪水或火灾等现实生活中的灾难性事件。例如,在工作时保留一张光盘或基于云的备份是满足此要求的好主意(即使云提供商随时可能关闭,只要您有其他副本,您就会安全,云提供商只会在紧急情况下充当异地存档)。
存储在特定具有受控环境参数的容器:对于光学介质,请将其存放在避光防水盒中,以避免潮湿。对于硬盘和 SD 卡,请将其存放在防磁套中,以避免残留电流干扰驱动器。您还可以将其存放在气密和防水的袋子/盒子中,并存放在冰箱中:缓慢的温度会减缓熵,这样您就可以大大延长任何存储介质的使用寿命(只需确保水不会进入内部,否则您的介质会很快损坏)。
使用优质硬件并提前检查(例如:购买 SD 卡时,在写入数据之前,使用 HDD Scan 等软件测试整张卡,确保一切正常)。这对于光驱尤其重要,因为它们的质量会极大地改变刻录光盘的质量,正如法国档案馆的研究表明的那样(劣质 DVD 刻录机刻录的 DVD 寿命会大大缩短)。
谨慎选择文件格式:并非所有文件格式都具有抗损坏能力,有些甚至明显很弱。例如,.jpg 图像可能只需篡改一两个字节就完全损坏且无法读取。7zip 存档也是如此。这太荒谬了,因此请谨慎选择存档文件的文件格式。根据经验,简单明了的文本是最好的,但如果您需要压缩,请使用非固实 zip,对于图像,请使用 JPEG2(尚未开源...)。有关专业数字策展人的更多信息和评论这里,这里, 和这里。
将读取数据所需的所有软件和规范与数据档案一起保存。请记住,规范变化很快,因此即使您可以访问文件,将来您的数据也可能无法再读取。因此,您应该选择开源格式和软件,并将程序的源代码与数据一起保存,以便您始终可以根据源代码调整程序以从新操作系统或计算机启动。
结论
我建议使用您现有的数据,但始终遵守冗余原则(制作 4 份副本!),并始终定期检查完整性(因此您需要预先生成 MD5/SHA1 哈希数据库),并在发生损坏时创建新副本。如果您这样做,从技术上讲,无论您的存储介质是什么,您都可以将数据保留任意长的时间。每次检查之间的时间取决于存储介质的可靠性:如果是软盘,则每 2 个月检查一次,如果是蓝光 HTL,则每 2/3 年检查一次。
现在,我建议冷藏库使用蓝光高温热释光光盘或档案级 DVD将光盘存放在防水不透明的盒子中,并存放在干净的地方。此外,您可以使用 SD 卡和基于云的提供商(如 SpiderOak)来存储数据的冗余副本,或者如果您更方便访问,甚至可以使用硬盘。
使用大量纠错码,它们将拯救你。你也可以复制这些 ECC 文件(但复制多份数据比复制多份 ECC 更重要,因为 ECC 文件可以自我修复!)。
这些策略都可以使用我正在开发的工具集(开源)来实现:pyFileFixity。事实上,这个工具就是在发现没有免费工具可以完全管理文件固定性之后由这个讨论发起的。此外,请参阅项目的自述文件和 wiki 以获取有关文件固定性和数字管理的更多信息。
最后,我真的希望能在这个问题上投入更多的研发。这是我们当前社会面临的一个主要问题,越来越多的数据被数字化,但没有任何保证说这些海量信息能保存几年以上。这真是令人沮丧,我真的认为应该把这个问题放在更重要的位置,这样它就可以成为建筑商和公司制造可以传承给后代的存储设备的营销点。
/编辑:请参阅下文,了解实用的策展流程。
答案2
纸
除了密封存储的档案纸上的档案墨水外,目前没有任何介质被证明可以在无需任何维护的情况下平均保存 100 年。
档案用纸
旧式纸张由亚麻和大麻等材料制成,因此天然呈碱性。或无酸,因此可以保存数百年。 20 世纪的纸张和大多数现代纸张通常由木浆制成,通常呈酸性并且不能长时间保存。
档案墨水
这些永久性、不褪色的墨水耐光、耐热、耐水,不含会影响纸张或摄影材料持久性的杂质。黑色光化墨水化学性质稳定,含有无机颜料,不像其他墨水颜料那样容易吸收杂质。
冗余存储
只有懦夫才会使用磁带备份:真正的男人只会将他们的重要资料上传到 ftp,然后让世界其他地方对其进行镜像
这表明您不应该依赖单一媒介上的单一副本。
不是磁性介质?
- 磁性介质不可挽回的退化的典型例子。
- 硬件和软件(以及数据格式)问题
非专业系统
2002 年,人们非常担心光盘将无法读取,因为能够读取这种格式的计算机已经很少见,能够访问光盘的驱动器更是少之又少。除了模拟原始代码的难度外,一个主要问题是静止图像以单帧模拟视频的形式存储在激光影碟上,
http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation
长期个人存储
http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376
- 媒体和格式都可能变得不可读。
- 使用颜料墨水在无酸纸上打印,并存放在阴凉、干燥、黑暗的地方。
- 第一个问题是选择能够最大限度延长寿命的数据格式。
- 避免使用专有格式
- USCSF 正在将其所有原始磁带(许多是现已过时的格式,如 BetaSP 和 VHS)转换为 75Mbit motionJPEG2000 格式
答案3
快速跟进我之前的回答,这将变得更加简洁和扩展,包含额外的(但不是主要的)信息和参考,由于 30K 的长度限制,我无法在第一个答案中添加这些信息和参考。
由于长期存档是一个管理过程,因此您可能需要注意以下一些其他事项,以使您的流程更高效,减少时间(和资源)消耗:
重复数据删除:由于确保长期存档的唯一方法是通过精心设计的冗余,因此您需要避免无用的冗余数据(例如,您从 USB 密钥中获取的文件副本复制到存档硬盘驱动器,但您已经有一份来自主计算机的副本!)。不需要的冗余数据通常称为重复无论是存储成本(它们占用更多存储资源,但您在需要时很难找到它们),还是流程(如果您有同一文件的不同版本怎么办?您怎么知道哪个副本是正确的?)和时间(当您将备份同步到所有档案时,它会增加传输时间)。这就是为什么专业档案服务通常提供自动化重复数据删除:完全相同的文件将获得相同的 inode,并且不会占用任何额外空间。例如,SpiderOak 就是这样做的。您可以使用自动化工具,ZFS(Linux)或 ReFS(Windows)文件系统可以自动为您完成此操作。
优先排序/分类:如您所见,长期存档是一个耗时的过程,需要定期进行(进行健全性检查、跨介质同步存档、在新介质上制作新存档以替换即将损坏的存档、使用纠错码修复文件等)。为了最大限度地减少所花费的时间,请尝试根据不同的情况定义不同的保护方案。优先事项您的数据基于类别这个想法是,当您将计算机数据移动到用于长期存档的外部硬盘驱动器之一时,将它们直接放在一个定义备份优先级的文件夹中:“不重要”、“个人”、“重要”、“关键”。然后,您可以为每个文件夹定义不同的备份策略:仅为您想要终生保留的最关键数据(关键文件夹)保留完全保护(例如,在 3 个硬盘驱动器 + 云 + 错误纠正代码 + BluRays 上备份),然后为“重要”数据保留中等保护(例如,在 3 个硬盘驱动器 + 云上备份),然后“个人”仅复制到至少两个外部硬盘驱动器,而“不重要”没有副本(或者如果同步时间不太长,可能在一个硬盘驱动器上...)。通常,您会看到“不重要”将包含大多数数据,然后“个人”较少,然后“重要”少得多,“关键”将非常小(对我来说不到 50 GB)。例如,在“关键”中,您将放置您的房屋合同以及您的结婚和生育照片。然后,“重要”文件夹中会放一些你不想丢失的文件,比如法律文件、一些重要照片和值得纪念的事件的视频等。在“个人”文件夹中,你会放上你所有的个人照片、假期视频和工作文件,这些都是你想保留的文件和媒体,但即使丢失了也不会后悔(这很好,因为这个文件夹通常很大,所以从长远来看,你可能会丢失一些文件……)。“不重要”文件夹中放的都是你从互联网上下载的东西,或者是你不太在乎的各种文件和媒体(比如软件、游戏和电影)。底线是:想要长期存档的文件越多,就越困难(也越耗时),因此请尽量减少需要这种特殊处理的文件数量。
元数据是关键点:即使有良好的管理策略,通常也有一样东西没有得到保护:元数据。元数据包括有关文件的信息,例如:目录树(是的,这只有几个字节,如果丢失了它,文件就会完全混乱!)、文件名和扩展名、时间戳(这对您来说可能很重要)等。这似乎不是什么大问题,但想象一下:如果明天,您的所有文件(包括随软件和其他东西一起提供的文件)都放在一个平面文件夹中,没有文件名和扩展名。您能通过手动检查从计算机上的数十亿个文件中恢复所需的文件吗?不要认为这是一种不寻常的情况,它可能像您在复制过程中断电或崩溃一样容易发生:正在写入的分区可能会被完全破坏(臭名昭著的 RAW 类型)。为了解决这个问题,您应该做好准备并准备好数据以进行数据恢复:为了确保保留元数据,您可以使用将文件与其元数据聚集在一起非固定档案例如 ZIP DEFLATE 或达比(但不是焦油)。某些文件系统提供自动元数据冗余,例如 DVDisaster(用于光盘)和 ZFS/ReFS(用于硬盘)。然后,在元数据崩溃的情况下,您可以尝试使用 TestDisk 或 GetDataBack(允许部分目录树恢复)或 ISOBuster(用于光盘)恢复您的分区,以恢复目录树和其他元数据。如果这一切都失败了,您可以回退到使用 PhotoRec 进行文件抓取:这将提取它识别的所有文件,但完全混乱,没有文件名和时间戳,只能恢复数据本身。如果您压缩了重要文件,您将能够恢复 zip 中的元数据(即使 zip 本身不再包含元数据,至少文件内部仍将拥有正确的元数据)。但是,您必须手动逐个检查所有抓取的文件,这非常耗时。为了防止这种可能性,您可以预先使用 pyFileFixity 或 PAR2 生成一个完整性校验和文件,然后在文件抓取后使用该完整性校验和文件根据文件内容自动识别和重命名文件(这是自动执行文件抓取元数据恢复的唯一方法,因为文件抓取在技术上只能恢复内容,而不能恢复元数据)。
亲自测试你的文件格式和管理策略:不要相信文章中关于哪种格式类型比另一种更好的说法,你可以自己尝试一下pyFileFixity 文件篡改.py或者自己替换一些文件中的几个十六进制字符:你会发现大多数文件格式只需 3 个不同的字节就可以分解。所以你真的应该仔细选择你的文件格式:为笔记选择简单的文本文件,为媒体使用弹性文件格式(它们仍在开发中,例如 MPEG-4 可变纠错码,ffmpeg 实现了它,参考资料将被添加),或者生成你自己的纠错码。
阅读统计研究,不要相信说法:正如我在上一个回答中所说,人们总是夸大存储介质的使用寿命,却没有任何科学依据,你应该特别警惕这一点。事实上,法律中没有任何规定可以阻止制造商吹嘘虚假的、无法验证的使用寿命声明。最好参考统计研究,例如BackBlaze 的硬盘故障率年度报告。
拿长期保证存储介质。保修不能让您的数据恢复,但它可以告诉您生产商如何评估其产品的故障率(否则,如果在保修期内故障率过高,则成本过高)。
我使用的方案的更新:我应用了上面描述的优先级策略,并将云备份服务 SpiderOak 添加到我的方案中,因为它有一个无限存储计划,并且完全加密,因此我保留对我的数据的唯一所有权。我不会将其用作任何数据的唯一备份介质,它只是一个附加层。
这是我目前的计划:
- 3 个硬盘副本定期检查和同步,并存储在两个不同的地方,还有 1 个始终在我身上(我用它来存储垃圾和进行快速备份)。
- SpiderOak 无限存储计划
- BluRay 光盘适合存储非常实用的数据,但数据量不会太大(我将这些光盘上可存储的数据限制为 50 GB)
- 我真正想确保长期保留的文件夹是 pyFileFixity 和 DVDisaster。
我的日常工作是这样的:我总是有一个 2.5 便携式 USB 硬盘,我可以用它来存储不重要的东西(将文件从我的计算机移动到硬盘)或备份重要的东西(将文件复制到硬盘但在计算机上保留一份副本)。对于真正重要的东西,我还会激活 SpiderOak 的在线备份(我的计算机上有一个包含重要东西的文件夹,所以我只需将关键文件移到那里,它就会由 SpiderOak 自动同步)。对于真正重要的文件,我还使用 pyFileFixity 计算错误更正文件。
总而言之,对于重要的东西,我将它们存储在:便携式硬盘、SpiderOak 云和我的电脑上,所以我有3 份随时只需两个快速操作(复制到便携式硬盘并移动到 SpiderOak 文件夹)。如果一份副本损坏,我可以使用 pyFileFixity 进行多数投票来修复它们。这是一个非常低成本的方案(无论是在价格还是时间上)但非常高效并实现了数字管理的所有核心原则(三重冗余、不同位置的不同副本、不同的媒介、完整性检查和 SpiderOak 的 ecc)。
然后,每 3 到 6 个月,我会将我的便携式硬盘与家里的第二块硬盘同步,然后每 6 到 12 个月,我会将我的便携式硬盘与另一所房子里的第三块硬盘同步。这提供了轮换的额外好处(如果在 6 个月内我发现上次备份出了问题,删除了关键文件,我可以从家里的两块硬盘之一中恢复它们)。
最后,我使用 DVDisaster 在蓝光光盘上写入了一些非常重要的文件(并使用 pyFileFixity 写入了其他 ecc 文件,但我不确定这是否有必要)。我将它们存放在壁橱里的一个密封盒子里。我每隔几年才检查一次。
所以你看,我的方案其实不算什么负担:每天,我只需要花几分钟将文件复制到便携式硬盘和 SpiderOak 文件夹中,然后每 6 个月同步一次家用硬盘。这可能需要一天的时间,具体取决于需要同步的数据量,但它是由软件自动完成的,所以你只需要让电脑运行软件,然后你就可以做其他事情了(我使用一台 100 美元的上网本,就是为了做这件事,这样我就可以同时在主电脑上工作,而不必担心在复制过程中电脑崩溃,这可能会很可怕,并会破坏正在写入的硬盘)。错误校正码和蓝光方案很少用于真正重要的数据,因此会耗费更多时间,但这种情况很少见。
这个方案可以得到增强(一如既往),例如通过使用硬盘上的 ZFS/ReFS:这将实现一个自动里德-所罗门错误修正码保护和完整性检查(以及复制块!无需任何人工干预就我而言(与 pyFileFixity 相反)。尽管 ZFS暂时无法在 Windows 操作系统下运行,ReFS 允许在文件系统级别进行类似的错误纠正控制。此外,在外部硬盘上使用这些文件系统可能是一个好主意!运行 ZFS/ReFS 并具有自动 RS 错误纠正和重复数据删除功能的便携式硬盘应该很棒!(和ZFS 似乎相当快所以复制应该很快!)。
最后一点:要小心有关文件系统 ECC 功能的声明,例如在这个列表中,因为对于大多数人来说,它仅限于元数据(例如安普森)或 RAID 1 镜像(文件系统据我所知,只有 ZFS 和 ReFS 提供了元数据和数据的真正纠错码(而不是简单的镜像),其中 ZFS 是目前最先进的(尽管截至 2018 年仍处于实验阶段),特别是因为 ReFS 驱动器无法启动。
/更新 2020:有新的解决方案正在出现,它们仍处于早期实验阶段,使用基于不可变区块链的去中心化方法,虽然现在大多数解决方案可能无法使用,但探索起来非常有趣(我不会依赖它们来备份关键数据,但如果你愿意冒险,它们可以用作二次备份):
/EDIT 2023:如果你已经做到了这一点,恭喜你!还有更多!你可以找到我的2023 年更新如下。
还要注意的是,SAS 硬盘现在包含一种如上所述的 dittoblocks 系统,因为每个扇区都受到另一个充满纠错码字节的扇区的保护。此外,所有硬盘均实现 ECC以防止出现严重故障的扇区,但它们的纠正能力有限。
答案4
我会选择微缩胶片。我不知道现在是否还在生产,但如果没有的话我会很惊讶。如果保存得当,银基底片可以保存数百年。当然这是一笔巨大的投资,而且会占用一整个房间用于拍照和观看,这还不包括存储。所以这只有在你真的意味着 100 年以上且无需维护的情况下才适用。
如果没有的话(除非你想制作时间胶囊,否则你很可能不会这样做),只需使用硬盘备份,每 10-15 年将所有内容复制到新媒体上。真的,没有比每 10 年左右复制所有内容更好的方法来防止媒体老化了。比微缩胶片、泥板、埋在沙漠中的石碑都好。