NVMe 或 SSD 存储数据的长期稳定性如何?

NVMe 或 SSD 存储数据的长期稳定性如何?

背景:
我们需要随时访问 30TB 的音频数据,尽管只有一小部分被要求播放,但即使是多年前的旧数据,也需要立即播放。数据驻留在多个阵列的 SAN 中,并且每晚都会对新数据进行备份。一些数据也会每晚被删除。由于两者都是写入事件,因此每晚可以将其称为 20GB。总体趋势是写入的新数据多于删除的旧数据。

每周巡检读取 (PR) 和一致性检查 (CC) 占阵列上的大部分磁盘活动,除了它们旋转直至发生故障之外。

问题:
我试图弄清楚是否应该将基于磁盘的 SAN 替换为使用 NVMe 的 SAN,应考虑什么 RAID 级别,以及降低 VNAND 技术的 PR 或 CC 活动频率是否有意义?

据我了解,导致 VNAND 崩溃的原因是写入,即使考虑到一致性检查,我们在大多数驱动器上写入的数据也会比每日最低限度少得多。

我几乎找不到在 NVMe 甚至 SSD 上对 RAID 5/6 的测试。我主要追求的是长期可用性。

研究:
关于此主题的其他大多数问题都早于 NVMe 技术,已有 6-7 年历史。这个问题是个例外,但也没有真正涵盖这种情况。
了解 NVMe 存储和硬件要求

有关的:
长期存储业务关键数据
视频和音频文件的长期存档
一年 Raid 0 设置

答案1

通过使用 SSD 而不是 HDD,您将获得一些功率优势,并且可能具有可靠性优势(企业级 SSD 比企业级 HDD 可靠得多)。NAND 耐久性没有问题,尤其是在您拥有的活动级别下,即使在更高级别下,耐久性也不是真正的问题。您很可能还可以选择相对便宜的读取优化驱动器(具有 0.3 DWPD),并且不必担心磁盘耐久性。

在这种用例中,唯一的问题是驱动器的成本是否保证了功率和可靠性优势。

至于可靠性/可用性,我见过的所有企业级 SSD 都宣称 MTBF 为 200 万小时,而我使用过的 SSD 都超过了这个标准。相反,所有企业级 HDD 都声称 MTBF 为 120 万小时,但没有一个能达到一半,因此,随着这一举措的实施,您将看到可靠性大幅提升。同样,它是否真的物有所值,您需要自行计算。

我在这方面的资历是我曾从事过涉及 HDD 和 SSD 的企业存储系统工作,并从事过硬件/软件集成工作,并深入参与了组合系统的可靠性。我所依赖的数据集是私有的,因此没有我可以指出的公开研究。

答案2

电荷衰减也会损坏 NAND。 在良好的固态下,这种现象可能非常缓慢,但一段时间后就会变得明显。这与磁主轴完全不同,磁主轴可以保存数据 10 年或更长时间。如果它们再次旋转,情况就是这样。

查找可靠性数据,作为写入字节数、旋转小时数和其他指标的函数。供应商规格以及任何公共数据集。驱动器出现磨损时应更换。特别是在保修期即将结束的时候,可能已经使用 3 年了。

使用与在线数据不同的介质进行备份。如果主存储是固态的,则使用磁带或磁心轴作为保护存储。

至少每 10 年重新评估一次存档介质。将您关心的旧备份转移到当前的保护介质上。

成为一名优秀的档案管理员并不局限于媒体类型或冗余方案,存储会随着时间而发展。即使对于类似的性能、可用​​性和成本要求,这里也没有唯一的答案。

答案3

闪存存储仍然太新,因此目前尚无任何可靠的大规模长期寿命研究。到目前为止,SLC 和 MLC 闪存的迹象看起来不错,似乎可以提供与旋转锈蚀一样好甚至更好的寿命。TLC 和 QLC 闪存太新了,无法做出任何合格的预测,但可以合理地预期它们的寿命比 SLC 和 MLC 闪存更差。就我个人而言,我不会因为寿命原因而从旋转锈蚀机转向闪存,但可能是出于性能等其他原因。相反,我会研究存储管理系统的完整性功能,并确保它能够正确处理部分丢失或损坏的数据。ZFS 可能是这方面的领导者。

相关内容